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O'Reilly Media,Inc. 介 绍 


O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 
调查 研究 和 会 议 等 方式 传播 创 狐 知 识 。 目 1978 年 
开始 ，O'Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 
者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真 
正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信 
号” 来 刺 油 社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 
活跃 的 参与 者 ，O'Reilly 的 发 展 充 满 了 对 创新 的 倡 
导 、 创 造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 币 来 革命 性 的 “动物 
书 ”， 创建 第 一 个 商业 网 站 (GNN) ; 组 织 了 影 
呵 深远 的 开放 源 代 码 峰 会 ， 以 至 于 开源 软件 运动 
以 此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 命 
的 主要 先锋 ;公司 一 如 既往 地 通过 多 种 形式 缔结 
信息 与 人 的 纽带 。O'Reilly 的 会 议和 峰会 集聚 了 众 
多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 摘 绘 出 
开创 新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信 
轧 的 选择 ，OReilly 现 在 还 将 先锋 专家 的 知识 传递 
给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 
线 服 务 或 者 面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反 
ee 言 恩 是 激发 创新 的 

量 。 


业界 评论 
“O'Reilly Radar 博 客 有 口 丝 人 肆 。” 
Wired 


“O'Reilly 凭 借 一 系列 (真希 望 当初 我 也 想到 
了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 


Business 2.0 


“O'Reilly Conference 十 聚集 关键 思想 领 负 的 
绝对 典范 。” 


——CRN 
“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 


途 、 需 要 学 习 的 主题 。” 
Irish Times 


“Tim 征 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 
长 远 、 最 广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 
建议 去 做 了 : “如 果 你 在 路 上 过 到 倪 路 口 ， 走 小 路 

(岔路 ) 。 :回顾 过 去 Tim 人 似乎 每 一 次 都 选择 了 小 
路 ， We 尽管 大 路 
全 不 笨 ” 


Linux Journal 


详 首 序 


说 句 真 心 话 ， 我 非 第 感谢 有 机 会 翻 详 这 本 
书 ， 所 以 这 可 算 坪 第 一 篇 我 目 己 真正 想 写 的 详 着 
序 。 虽 然 之 前 也 翻译 过 好 几 本 书 ， 但 都 没有 这 次 
的 感 恒 这 么 多 、 这 么 深 ! 这 本 书 是 我 化 精力 和 时 
间 最 多 ， 同 时 也 是 最 不 满意 的 一 本 ， 束 是 因为 这 
上 旦 感悟 一 一 我 始终 锣 得 ， 如 果 再 多 点 时 间 的 话 ， 
我 还 可 以 翻译 得 更 好 。 


本 书 的 内 容 非 党 好， 至 少 有 一 点 非 间 好 一 一 
集中 火力 对 付 特 定 的 应 用 领域 。 市 面 上 介绍 编程 
的 书 多 如 牛 毛 ， 但 几乎 没有 儿 本 书 是 针对 特定 应 
用 场景 的 。 这 本 书 对 狐 手 米 说 绝对 是 福 首 ， 因 为 
每 看 完 一 氮 吏 可 以 马上 将 目 己 手 上 的 工作 直接 钙 
来 当 例 子 练 手 ， 这 种 立 第 见 影 的 学 习 效 朱 ， 绝 对 
会 增强 新 手 的 学 习 信 心 。 


本 书 内 容 虽 好 ， 但 由 于 作者 和 编辑 弄 牛 人 ， 
平时 的 工作 肯定 不 少 ， 写 书 方 面 的 精力 目 然 束 不 
可 能 太 多 。 加 之 美式 英语 本 来 驳 很 口语 化 ， 导 致 
原 书 口 水 话 非 常 多 ， 有 些 地 方 的 从 句 跟 绕口令 似 
的 。 我 在 翻 详 的 过 程 中 尽量 排除 了 一 些 ， 两 次 校 
稿 的 过 程 中 义 删 除 或 大 幅 修 改 了 一 些 废 话 ， 里 然 
这 种 “口水 话 ” 还 存在 不 少 ， 但 至 少 不 会 对 阅读 霹 


成 太 大 影响 。 如 来 实在 寅 得 语言 不 通顺 ， 请 随时 
发 邮件 给 我 ， 欢 迎 大 家 的 善意 指导 
(tonytang1999@126.com) 。 


此 外 ， 在 翻 详 的 过 程 中 发 现 了 不 少 小 问题 ， 
用 词 方面 的 错误 儿 乎 都 是 直接 改 的 〈 小 部 分 写 了 
详 背 注 ， 因 为 编辑 要 求 我 尽量 标 出 一 些 来 以 便 核 
对 ) ， 而 其 他 错误 则 几乎 全 部 采用 译 者 注 的 形式 
说 明 ， 还 有 一 些 原文 有 卜 义 或 不 评 尽 的 地 方 也 通 
过 译 者 注 的 形式 给 出 了 简单 说 明 。 


本 书 共 12 章 ， 除 非 你 已 经 什么 都 会 了 ， 否 则 
我 建议 全 部 阅读 。 如 果 没 有 学 过 Python， 建 议 先 
看 看 本 书后 面 的 附录 。 本 书 所 用 到 的 Python 编程 
基础 知识 很 少 ， 所 以 只 看 那个 附录 完全 足够 了 。 
但 是 ， 如 果 你 一 点 儿 编 程 基础 都 没有 的 话 ， 可 能 
需要 再 看 一 本 有 关 Python 入 门 的 书 才 行 (比如 
《python 编程 实践 》 害 主 !) 。 


对 了 ， 还 有 几 件 事情 需要 说 明 一 下 : 
:每 草 的 代码 示例 最 好 在 一 个 了 Python 会 话 中 完 


成 ， 否 则 可 能 会 出 现 一 些 不 必要 的 搁 烦 ， 比 
如 “xxx 未 定义 ”。 


:如 采 在 Windows 里 面 用 IPython， 复 制 代 码 的 
时 候 建议 使 用 cpaste， 这 个 不 多 解释 了 。 


-有关 地 图 的 那 段 代码 可 能 需要 找 英 文 贷 料 看 
才 行 ， 我 在 译 痢 注 中 也 说 明了 “。 这 可 能 需要 伦 不 
少时 间 和 精力 。 


-由 于 原文 各 种 说 法 不 统一 (甚至 包括 术 
语 ) ， 虽 然 我 尽量 做 了 统一 处 理 ， 但 由 于 精力 和 
时 间 有 限 ， 无 法 完全 修改 ， 所 以 译文 中 的 “xxx 接 
受 yyy”\“ 将 yyy 传 入 xxx”? 说 的 都 是 “xxx 函 数 有 yyy 
这 人 么 个 参数 ”; “选项 *\“ 位 置 参数 ”\“ 关 键 字 参 
数 ”、“ 形 参 ”、“ 实 参 ” 说 的 都 是 “参数 ”...... 还 有 不 
少 ， 我 也 记 不 清 了 。 


“金融 和 经 济 数 据 ” 那 一 章 翻 译 得 非常 痛 吉 ， 
因为 我 根本 不 了 解 那 个 行业 ， 原 文 的 术语 义 不 标 
准 ， 于 是 我 基本 都 是 用 wikipedia 和 bing 碍 允 文 资 
料 ， 看 慌 之 后 再 到 baidu 找 中 文 资 料 ， 并 最 终 确定 
译文 。 因 此 ， 可 能 会 有 不 准确 的 情况 ， 如 果 您 发 
现 了 ， 请 及 时 通过 邮件 告诉 我 ， 万 分 感谢 。 


此 外 ， 我 必须 感谢 华章 公司 的 编辑 们 。 非 党 
感谢 他 们 能 够 给 我 这 样 的 机 会 ， 也 非常 感谢 他 们 ] 
在 整个 过 程 中 给 予 我 的 各 种 文 择 和 理解 。 布 望 以 
后 还 能 有 更 加 愉快 的 合作 。 


本 书 大 部 分 内 容 的 翻 详 工 作 以 及 全 书 的 统称 
工作 由 我 完成 ， 参 与 本 书 翻 详 校 对 工作 的 还 有 黄 
患 庄 、 户 请 民 、 浦 巧 患 、 陈 丽 丽 、 衣 元江、 张 
杨 、 赵 太 、 关 斌 、 事 敏 、 林 丹 、 王 跃 等 。 


由 于 详 考 水 平 有 限 ， 书 中 肯定 会 存在 一 些 锯 
误 或 不 妥 之 处 ， 因 此 ， 在 阅读 过 程 中 发 现 有 任何 
问题 ， 请 随时 联系 我 们 
(tonytang1999@126.com) 或 机 械 工 业 出 版 社 ， 
我 们 将 及 时 更 新 本 书 的 勘误 表 。 当 然 ， 也 非常 欢 
迎 大 家 对 本 书 提 出 宝贵 的 意见 和 建议 。 


唐 学 万 
2013 年 6 月 于 广州 


编 注 1: 本 书 已 由 机 械 工 业 出 版 社 出 版 ，ISBN:978- 
7-111-36478-8。 


用 后 


针对 科学 计算 领域 的 Python 开源 库 生 态 系统 
在 过 去 10 年 中 得 到 了 飞速 发 展 。2011 年 底 ， 我 深 
深 地 感 沉 到， 由 于 缺乏 集中 的 学 习 人 资源 ， 刚 刚 接 
触 数据 分 机 和 统计 应 用 的 Python 程序 员 举 步 维 
艰 。 针 对 数据 分 析 的 关键 项 目 (尤其 是 NumPy、 
matplotlib 和 pandas) 已 经 很 成 熟 了 ， 也 就 是 说 ， 
写 一 本 专 | ] 介 绍 它们 的 图 书 狐 似 不 会 很 快 过 时 。 
因此 ， 我 下 定 决 心 要 开始 这 样 的 一 个 写作 项 目 。 
我 在 2007 年 刚 开 始 用 Python 进 行 数据 分 析 工 作 时 
束 布 望 能 够 得 到 这 样 一 本 书 。 希 望 你 也 能 完 得 本 
书 有 用 ， 同 时 也 硕 户 你 能 将 书 中 介绍 的 那些 工具 
高 效 地 运用 到 实际 工作 中 去 。 


本 书 的 约定 
本 书 使 用 了 以 下 排版 约定 : 
斜体 (Italic) 


用 于 新 术语 、URL、 电 子 邮 件 地 址 、 文 件 名 
与 文件 扩展 和 名。 


等 宽 字 体 (Constant width ) 


用 于 表明 程序 清单 ， 以 及 在 段落 中 引用 的 程 
序 中 的 元 素 ， 如 变量 、 丽 数 名 、 数 据 库 、 数 据 类 
型 、 环 境 变量 、 语 句 、 关 键 字 等 。 


等 宽 粗 体 (Constant width bold) 


用 于 和 才 明 命令 ， 或 者 需要 谈 疹 逐 字 输入 的 文 
本 内 容 。 


等 宽 斜 体 (Constant width italic ) 


用 于 表示 需要 使 用 用 户 提 供 的 值 或 者 由 上 下 
文 决定 的 值 来 警 代 的 文本 内 容 。 


注意 ， 代表 一 个 技巧 、 建 议 或 一 般 性 说 明 。 
警告 ， 代表 一 个 警告 或 注意 事项 。 
示例 代码 的 使 用 


本 书 所 供 代 码 的 目的 古 带 你 快速 完成 工作 。 
一 般 情 况 下 ， 你 可 以 在 你 的 程序 或 文档 中 使 用 本 
书 中 的 代码 ， 而 不 必 取 得 我 们 的 证 可 ， 除 非 你 想 
复制 书 中 很 大 一 部 分 代码 。 例 如 ， 你 在 编写 程序 
时 ， 用 到 了 本 书 中 的 几 个 代码 片段 ， 这 不 必 取 得 
我 们 的 许可 。 但 若 将 O’Reilly 图 书 中 的 代码 制作 成 


光盘 并 进行 出 售 或 传播 ， 则 需 获 得 我 们 的 许可 。 
引用 示例 代码 或 书 中 内 容 来 解答 问题 无 需 许 可 。 
将 书 中 很 大 一 部 分 的 示例 代码 用 于 你 个 人 的 产品 
文档 ， 这 需要 我 们 的 许可 。 


如 琳 你 引用 了 本 书 的 内 容 并 标明 版 权 归 属 声 
明 ， 我 们 对 此 表示 感谢 ,但 这 不 是 必需 的 。 版 权 
归属 声明 通常 包括 : 标题 、 作 者 、 出 版 信和 ISBN 
号 ， 例 如 : "Python for Data Analysis by William 
Wesley McKinney (O'eilly).Copyright 2013William 
Wesley McKinney,978-1-449-31979-3" 。 


如 条 你 认为 你 对 示例 代码 的 便 用 已 经 超出 上 
述 疙 围 ， 或 痢 你 对 是 人 否 需 要 获得 示例 代码 的 授权 
还 不 消 苞 ， 请 随时 联系 我 们 : 
permissions(@oreilly.com ° 
联系 我 们 

有 天 本 书 的 任何 建议 和 疑问 ， 可 以 通过 下 列 
方式 与 我 们 取得 联系 : 

美国 : 


O'eilly Media,Inc. 


1005Gravenstein Highway North 
Sebastopol,CA 95472 
中 国 : 


北京 市 西城 区 西 和 二 门 南大 街 2 号 成 络 大 厦 C 座 
807 室 (100035) 


奥 羔 利 技术 咨询 (北京 ) 有 限 公 司 

我 们 会 在 本 书 的 网 页 中 列 出 勘误 表 、 示 例 和 
其 他 信息 。 可 以 通过 
http://oreil.ly/Python_for_Data_Analysis 访 问 该 页 
面 O 〇 


要 评论 或 询问 本 书 的 技术 问题 ， 请 发 送 电子 
邮件 到 : 


bookquestions(@oreilly.com 


想 了 解 关于 O'eilly 图 书 、 诬 程 、 会 议和 新 闻 
的 更 多 信息 ， 请 访问 以 下 网 站 : 


http:/www.oreilly.com.cn 


http:/www.oreilly.com 


还 可 以 通过 以 下 网 站 关注 我 们 : 


我 们 在 Facebook 上 的 主页 : 
http://facebook.com/oreilly 


我 们 在 Twitter 上 的 主页 : 


http://twitter.com/oreillymedia 


我 们 在 YouTube 上 的 主页 : 


http:/www.youtube.com/oreillymedia 


第 1 章 准备 工作 
本 书 主 要 内 容 


本 书 讲 的 是 利用 Python 进行 数据 控制 、 处 
理 、 整 理 、 分 析 等 方面 的 具体 细 世 和 基本 要 点 。 
同时 ， 它 也 是 利用 python 进行 科学 计算 的 实用 指 
南 (专门 针对 数据 密集 型 应 用 ) 。 本 书 重 点 介绍 
了 用 于 高 效 解 决 各 种 数据 分 析 问 题 的 Python 语 言 
和 库 。 本 书 没 有 兰 述 如 何 利 用 Python 实现 具体 的 
分 析 方 法 。 


当 书 中 出 现 “ 数 据 ? 时 ， 守 竟 指 的 是 什么 呢 ? 
主要 指 的 是 结构 化 数据 (structured data) ， 这 个 
2 ， 其 秤 的 术语 代 指 了 所 有 通用 格式 的 数 

， 例 如 : 


:多维 数组 〈 和 矩阵 ) 。 


-表格 型 数据 ， 其 中 各 列 可 能 是 不 同 的 类 型 
(字符 串 、 数 值 、 日 期 等 ) 。 比 如 保存 在 关系 型 
效 据 库 中 或 以 制 表 符 / 喜 号 为 分 隔 符 的 文本 文件 中 
的 那些 数据 。 


通过 关键 列 〈 对 于 SQL 用 户 而 言 ， 承 是 主键 
和 外 键 ) 相互 联系 的 多 个 表 。 


- 则 阳平 均 或 不 平均 的 时 间 序 列 。 


这 绝 不 是 一 个 完整 的 列表 。 大 部 分 数据 集 都 
能 做 园 化 为 更 加 适合 分 析 和 建 模 的 结构 化 形式 ， 
虽然 有 时 这 并 不 是 很 明显 。 如 来 不 行 的 话 ， 也 可 
以 将 数据 集 的 特征 提取 为 未 种 结构 化 形式 。 例 
如 ， 一 组 新 闻 文 草 可 以 被 处 理 为 一 张 词 频 表 ， 而 
这 张 词 频 表 束 可 以 用 于 情感 分 析 。 


大 部 分 电子 表格 软件 (比如 Microsoft Excel， 
它 可 能 是 世界 上 使 用 最 广泛 的 数据 分 析 工 具 了 ) 
的 用 户 不 会 对 此 类 数据 感到 阳 生 。 


为 什么 要 使 用 Python 进行 数据 分 析 


许 许 多 多 的 人 (包括 我 自己 都 很 容易 爱 上 
python 这 1] 语言 。 自 从 1991 年 诞生 以 来 ，Python 
现在 已 经 成 为 最 受 欢 迎 的 动态 编程 语言 之 一 ， 其 
他 还 有 Perl、Ruby 等 。 由 于 拥有 大 量 的 Web 框 架 

(比如 Rails (Ruby) 和 Django (Python) ) ， 最 
近 几 年 非常 流行 使 用 Python 和 Ruby 进 行 网 站 建设 
工作 。 这 些 语言 党 被 称 作 脚本 (scripting) 语言 ， 
因为 它们 可 以 用 于 编写 简短 而 粗糙 的 小 程序 (也 
就 是 脚本 ) 。 我 个 人 并 不 喜欢 “脚本 语言 > 这 个 术 
语 ， 因 为 它 好 像 在 说 这 些 语 言 无 法 用 于 构建 严 齐 
的 软件 。 在 众多 解释 型 语言 中 ，Python 最 大 的 特 
点 是 拥有 一 个 巨大 而 活跃 的 科学 计算 (scientific 
computing) 社区 。 进 入 21 世 纪 以 来 ， 在 行业 应 用 
中 采用 Python 进行 科学 计算 的 势头 越 


在 数据 分 机 和 交互 、 探 索性 计算 以 及 数据 可 
视 化 等 方面 ，Python 将 不 可 避免 地 接近 于 其 他 开 
源 和 商业 的 领域 特定 编程 语言 /工具 ， 如 R、 
MATLAB、SAS、Stata 等 。 近 年 来 ， 由 于 Python 
有 不 断 改 良 的 库 (主要 是 pandas) ， 使 其 成 为 数 
据 处 理 任 务 的 一 六 百代 方案 。 结 合 其 在 通用 编程 


方面 的 强大 实力 ， 我 们 完全 可 以 只 使 用 Python 这 
一 种 语言 去 构建 以 数据 为 中 心 的 应 用 程序 。 


把 Python 当 做 粘 合 剂 


作为 一 个 科学 计算 平台 ，Python 的 成 功 部 分 
源 于 其 能 够 轻松 地 集成 C、C++ 以 及 Fortran 代 人 码 。 
大 部 分 现代 计算 环境 都 利用 了 一 些 Fortran 和 C 库 
来 实现 线性 代数 、 优 选 、 积 分 、 人 快速 传 里 时 变换 
以 及 其 他 诸如 此 类 的 算法 。 许 多 企业 和 国家 实验 
室 也 利用 Python 来 “ 粘 合 ”那些 已 经 用 了 30 多 年 的 


迁 留 软件 系统 。 


大 多 数 软 件 都 是 由 两 部 分 代码 组 成 的 ; 少量 
需要 占用 大 部 分 执行 时 间 的 代码 ， 以 及 大 量 不 经 
常 执行 的 “ 粘 合 剂 代码 ”。 粘 合剂 代码 的 执行 时 间 
通常 是 微不足道 的 。 开 发 人 员 的 精力 几乎 都 是 花 
在 优化 计算 瓶颈 上 面 的 ， 有 时 更 是 直接 转 用 更 低 
级 的 语言 (比如 C) 。 


最 这 这 儿 年 ，Cython 项 目 
(http://cython.org) 已 经 成 为 Python 领域 中 创建 编 
译 型 扩展 以 及 对 接 C/C++ 代 码 的 一 大 途径 。 


解决 “两 种 语言 ”问题 


很 多 组 织 通常 都 会 用 一 种 类 似 于 领域 特定 的 
计算 语言 (如 MATLAB 和 R) 对 新 的 想法 进行 研 
究 、 原 型 构建 和 测试 ， 然 后 再 将 这 些 想法 移植 到 
某 个 更 大 的 生产 系统 中 去 (可 能 是 用 Java、C# 或 
C++ 编写 的 ) 。 人 们 逐渐 意识 到 ，Python 不 仅 适 
用 于 研究 和 原型 构建 ， 同 时 也 适用 于 构建 生产 系 
统 。 我 相信 越 来 越 多 的 企业 也 会 这 样 看 ， 因 为 研 
究 人 员 和 工程 技术 人 员 使 用 同一 种 编程 工具 将 会 
给 企业 带 来 非常 显著 的 组 织 效益 。 


为 什么 不 让 Python 


虽然 Python 非常 适合 构建 计算 密 嘛 型 科学 应 
用 程序 以 及 几乎 各 种 各 样 的 通用 系统 ， 但 它 对 于 
不 少 应 用 场景 仍然 力 有 不 隶 。 


由 于 Python 是 一 种 解释 型 编程 语言 ， 因 此 大 
部 分 Python 代码 都 要 比 用 编译 型 语言 (比如 Java 
和 C++) 编写 的 代码 运行 慢 得 多 。 由 于 程序 员 的 
时 间 通 常 都 比 CPU 时 间 值 钱 ， 因 此 许多 人 也 愿意 
在 这 里 做 一 些 权 衡 。 但 是 ， 在 那些 有 要求 延迟 非常 
小 的 应 用 程序 中 (例如 高 频 交 易 系 统 ) ， 为 了 尽 
最 大 可 能 地 优化 性 有 能， 耗费 时间 使 用 诸如 C++ 这 
、 更 低 生 产 率 的 语言 进行 编程 也 是 值得 


对 于 高 并 发 、 多 线程 的 应 用 程序 而 言 (尤其 
是 拥有 许多 计算 密集 型 线程 的 应 用 程序 ) ， 
Python 并 不 是 一 种 理想 的 编程 语言 。 这 是 因为 
Python 有 一 个 叫做 全 局 解释 需 锁 (Global 
Interpreter Lock，GIL) 的 东西 ， 这 是 一 种 防止 解 
释 器 同时 执行 多 条 Python 字 节 码 指令 的 机 制 。 有 
天 “为 什么 会 存在 GIL” 的 技术 性 原因 超出 了 本 书 的 
范围 ， 但 是 欧 目 前 来 看 ，GIL 并 不 会 在 短 时 间 内 
消失 。 虽 然 很 多 大 数据 处 理应 用 程序 为 了 能 在 较 
短 的 时 间 内 完成 数据 集 的 处 理工 作 都 需要 运行 在 
计算 机 集群 上 ， 但 是 仍然 有 一 些 情况 需要 用 单 进 
程 多 线程 系统 来 解决 。 


这 并 不 是 说 Python 不 能 执行 真正 的 多 线程 并 
行 代 码 ， 只 不 过 这 些 代 码 不 能 在 单个 Python 进 程 
中 执行 而 已 。 比 如 说 ，Cython 项 目 可 以 集成 
OpenMP (一 个 用 于 并 行 计算 的 C 框 架 ) 以 实现 并 
行 处 理 循环 进而 大 幅度 提高 数值 算法 的 速度 。 


重要 的 Python 库 

考虑 到 那些 还 不 太 了 解 Python 科学 计算 生态 
下 面 我 完 对 各 个 库 做 一 个 人 简单 
J 介绍 。 


NumPy 


NumPy (Numerical Python 的 简称 ) 是 Python 
科学 计算 的 基础 包 。 本 书 大 部 分 内 容 都 基于 
NumpPy 以 及 构建 于 其 上 的 库 。 它 提供 了 以 下 功能 

(不 限于 此 ) : 
:快速 高 效 的 多 维 效 组 对 象 ndarray。 


用 于 对 数组 执行 元 系 级 计算 以 及 直接 对 效 组 
执行 数学 运算 的 芳 数 。 


-用 于 读 写 便 盘 上 基于 数组 的 数据 集 的 工具 。 
线性 代数 运算 、 便 里 时 要 换 ， 以 及 随机 数 生 


.用 于 将 C、C++、EFortran 代 码 集 成 到 Python 的 
工具 。 


除了 为 Python 捉 供 快速 的 数组 处 理 能 力 ， 
NumPy 在 数据 分 析 方 面 还 有 另外 一 个 主要 作用 ， 
即 作 为 在 算法 之 间 传 递 数 据 的 容 磊 。 对 于 数值 型 
数据 ，NumPy 煞 组 在 存储 和 人 处理 数据 时 要 比 内 置 
的 Python 数据 结构 高 效 得 多 。 此 外 ， 由 低级 语言 
(比如 C 和 Fortran) 编写 的 库 可 以 直接 操作 
中 的 数据 ， 无 需 进 行 任 何 数据 复制 工 


pandas 


pandas 提 供 了 使 我 们 能 够 快速 便捷 地 人 处理 结 
构 化 数据 的 大 量 数 据 结构 和 函数 。 你 很 快 就 会 发 
现 ， 它 是 使 Python 成 为 强大 而 高 效 的 数据 分 析 环 
境 的 重要 因 系 之 一 。 本 书 用 得 最 多 的 pandas 对 象 
是 DataFrame， 它 是 一 个 面向 列 (column- 


oriented) 的 二 维 表 结构 ， 且 含有 行 标 和 列 标 : 


>>> frame 

total bill tip sex smoker day time size 
1 16.99 1.01 Female No Sun Dinner 2 
2 10.34 1.66 Male No Sun Dinner 3 
3 21.01 3.5 Male No Sun Dinner 3 
4 23.68 3.31 Male No Sun Dinner 2 
5 24.59 3.61 Female No Sun Dinner 4 
6 25.2 4.71 Male No Sun Dinner 4 
7 8.77 2 Male No Sun Dinner 2 
8 26.88 3.12 Male No Sun Dinner 4 
9 15.04 1.96 Male No Sun Dinner 2 
10 14.78 3.23 Male No Sun Dinner 2 


pandas 羔 具 NumpPy 局 性 能 的 数组 计算 功能 以 
及 电子 表格 和 关系 型 数据 库 (如 SQL) 灵活 的 数 
据 处 理 功能 。 写 捉 供 了 复杂 精细 的 索引 功能 ， 以 
便 更 为 便捷 地 完成 重 塑 、 切 片 和 切 块 、 窜 合 以 及 
远 取 数据 了 于 集 等 控 作 。pandas 将 是 我 在 本 书 中 使 
用 的 主要 于 


对 于 金融 行业 的 用 户 ，pandas 提 供 了 大 量 适 
用 于 金融 数据 的 高 性 能 时 间 序 列 功能 和 工具 。 事 
实 上 ， 我 一 开始 束 古 想 把 pandas 设 计 为 一 藉 适 用 
于 金融 数据 分 析 应 用 的 工具 。 


对 于 使 用 R 语 言 进行 统计 计算 的 用 户 ， 肯 定 

`\ 会 对 DataFrame 这 个 名 字 感 到 陌生， 因为 它 源 目 
于 R 的 data.frame 对 象 。 但 是 这 两 个 对 象 并 不 相 
同 。R 的 data.frame 对 象 所 提供 的 功能 只 是 
DataFrame 对 象 所 提供 的 功能 的 一 个 了 于 集 。 虽 然 本 
书 讲 的 是 Python， 但 我 偶尔 还 古 会 用 R 做 对 比 ， 
为 它 毕 竟 是 最 流行 的 开源 数据 分 析 环 境 ， 而 且 很 
多 读者 都 对 它 很 熟悉 。 


pandas 这 个 名 字 本 导 源 目 于 panel data (面板 
数据 ， 这 是 计量 经 济 学 中 关于 多 维 结构 化 数据 集 
的 一 个 术语 ) 以 及 Python data analysis (Python 数 
据 分 析 ) 。 


matplotlib 


matplotlib 是 最 流行 的 用 于 绘制 数据 图 表 的 
Python 库 。 它 最 初 由 John D.Hunter (JDH) 创建 ， 
目前 由 一 个 庞大 的 开发 人 员 团 队 维 护 。 它 非常 适 
合 创建 出 版 物 上 用 的 图 表 。 它 跟 IPython ( 蕊 上 整 
会 讲 到 ) 结合 得 很 好 ， 因 而 提供 了 一 种 非常 好 用 
的 交互 式 数 据 绘图 环境 。 绘 制 的 图 表 也 是 交互 式 
的 ， 你 可 以 利用 绘图 窗口 中 的 工具 栏 放 大 图 表 中 
的 某 个 区 域 或 对 整个 图 改进 行 平 移 浏 谢 。 


IPython 


IPython 十 Python 科学 计算 标准 工具 集 的 组 成 
部 分 ， 它 将 其 他 所 有 的 东西 联系 到 了 一 起 。 它 为 
交互 式 和 探索 式 计算 提供 了 一 个 强健 而 高 效 的 环 
境 。 它 是 一 个 增强 的 Python shell， 目 的 是 提高 编 
写 、 测 试 、 调 斌 Python 代码 的 速度 。 它 主要 用 于 
交互 式 数据 处 理 和 利用 matplotlib 对 数据 进行 可 视 
化 处 理 。 我 在 用 Python 编程 时 ， 经 党 会 用 到 
IPython， 包 括 运 行 、 调 斌 和 测试 代码 。 


除 标 准 的 基于 终端 的 IPython shell 外 ， 该 项 目 
还 提供 了 : 


.一 个 类 似 于 Mathematica 的 HTML 笔记 本 ( 通 
过 Web 浏 换 套 连接 IPython， 稍 后 将 对 此 进行 详细 
介绍 ) 
县 和 丰 | 


一 个 基于 Qt 框架 的 GUI 控 制 台 ， 其 中 含有 给 
图 、 多 行 编辑 以 及 语法 高 党 显示 等 功能 。 


:用 于 交互 式 并 行 和 分 布 式 计算 的 基础 染 构 。 
我 将 在 一 间 中 专门 讲解 IPython， 详 细 地 介绍 


其 大 部 分 功能 。 强 烈 建 议 在 阅读 本 书 的 过 程 中 使 
用 IPython 。 


SclPy 


SciPy 是 一 组 专 | 解决 科学 计算 中 各 种 标准 问 
题 域 的 包 的 集合 ， 主 要 包括 下 面 这 学 包 : 


-Scipyintegrate: 数值 积分 例 程 和 微分 方程 来 
解 便 。 

scipy.linalg: 扩展 了 由 numpy.linalg 提 供 的 线 
性 代数 例 程 和 和 窍 阵 分 解 功能 。 


汪 0 函数 优化 器 (最 小 化 器 ) 以 
民 得 找 算 法 。 


scipy.signal: 信号 处 理工 具 。 


“scipy.sparse: 稀 散 矩阵 和 黎 踊 线性 系统 求解 


O 〇 


口 量 


scipy.special: SPECFUN (这 是 一 个 实现 了 
许多 常用 数学 函数 〈 如 伽 玛 函数 ) 的 Fortran 库 ) 
的 包 朔 右 。 


Scipy.stats: 标准 连续 和 离散 概率 分 布 (如 密 
度 画 数 、 采 样 器 、 连 续 分 布 函 数 等 )、 各 种 统计 
检验 方法 ， 以 及 更 好 的 摘 述 统计 法 。 


scipy.weave: 利用 内 联 C++ 代 码 加 速 数 组 计 
算 的 工具 。 


NumPy 跟 SciPy 的 有 机 结合 完全 可 以 替代 
MATLAB 的 计算 功能 (包括 其 插件 工具 箱 ) 。 


安 半 和 设置 


由 于 人 们 用 Python 所 做 的 事情 不 同 ， 所 以 没 
有 一 个 普 适 的 Python 及 其 插件 包 的 安 猴 方案。 由 
于 许多 读者 的 Python 科学 计算 环境 都 不 能 完全 满 
足 本 书 的 需要 ， 所 以 接 下 来 我 将 详细 介绍 各 个 操 
作 系 统 上 的 安 狠 方法 。 我 建议 使 用 下 列 Python 安 


.Enthought Python Distribution 于 于 1， 来 自 
Enthought (http://continumm.io/downloads) 的 面 
癌 科学 计算 的 Python 安装 包 。 包 括 EPDFree (人 免费 
的 基本 版 ， 融 有 NumPy 、SciPy 、matplotlib 、 
Chaco 以 及 IPython) 和 EPD Full (完整 版 ， 含 有 
100 多 个 针对 各 种 领域 的 科学 计算 包 ) 。EPD Full 
对 高 校 免 费 ， 非 高 校 用 户 需 要 缴纳 年 费 。 


-Python(X,y) 
(http://pythonxy.googlecode.com,) : Windows 平 
台 上 免费 的 Python 科学 计算 安 靶 包 。 


我 将 用 EPDFree 来 说 明 安 竣 过 程 ， 当 然 如 有 果 
有 需要 的 话 ， 你 也 可 以 选择 其 他 产品 。 编 写本 书 
时 ，EPD 用 的 是 Python 2.7， 今 后 可 能 会 有 些 变 
动 。 安 狼 完 毕 之 后 ， 你 将 可 以 用 到 下 面 这 些 包 : 


-Python 科学 计算 基础 库 : NumPy、SciPy、 
matplotlib 以 及 IPython。 这 些 都 包含 在 EPDFree 中 
了 了 o 


-JPython Notebook 依 顿 项 : tornado 和 pyzmq 。 
这 些 也 都 包 售 在 EPDFree 中 了 。 


-pandas (0.8.2 版 或 更 高 版 本 ) 。 


在 阅读 本 书 的 过 程 中 ， 你 可 能 还 需要 安 疙 : 
statsmodels、PyTables、 PyQt (PySide 也 行 ) 、 
xlrd、]lxml、basemap、pymongo 以 及 requests 竺 

(它们 被 用 在 不 同 的 示例 中 ) 。 现 在 暂时 还 不 需 
要 安装 这 些 库 ， 我 建议 你 在 需要 的 时 候 再 安装 。 
例如 ， 在 OS X 或 Linux 上 安装 PyQt 或 PyTables 可 能 
会 很 困难。 目前 最 重要 的 事情 是 和 完 用 EPDFree 和 
pandas 这 种 最 小 配置 运行 起 来 再 说 。 


关于 各 个 Python 库 及 其 安 狼 文件 和 帮助 信 
已 ， 请 访问 Python Package Index ( 即 PyP1， 
http://pypi.python.org) 。 你 还 可 以 在 这 里 找到 不 
少 狐 的 Python 库 


注意 : 为 了 简单 起 见 ， 我 将 不 会 讨论 pip 评 注 2 
和 virtualenv 这 类 比较 复杂 的 环境 管理 工具 。 网 上 
可 以 找到 许多 介绍 这 些 工 具 的 优秀 教程 。 


警告 : 有 些 用 户 可 能 会 对 诸如 IronPython 、 
Jython、PyPy 之 类 的 Python 实现 感 兴趣 。 为 了 使 
用 本 书 所 介绍 的 那些 工具 ， (目前 ) 束 需 要 使 用 
基于 C 的 标准 Python 解 释 器 (也 就 是 CPython) 。 


Windows 


先 从 http://www.enthought.com 下载 EPDFree 的 
安装 包 ， 它 可 能 是 一 个 名 字 类 似 于 epd_free-7.3-1- 
win-x86.msi 的 MSI 安 装 包 ”3。 运 行 该 安装 包 并 
接受 默认 的 安装 位 置 C:\Python27。 如 果 你 之 前 在 
这 里 安装 过 Python， 可 能 需要 先 将 其 删除 (可 以 
手工 删除 ， 也 可 以 使 用 控制 面板 中 的 “ 洪 加 /或 删 
除 程序 ”功能 ) 。 


接 下 来 ， 你 需要 验证 是 否 已 经 成 功 将 Python 
沭 加 到 系统 路 径 ， 并 且 没 有 跟 早 期 安 帮 的 Python 
版 本 发 生 冲 突 。 首 和 完 ， 打 开 命 令 提示 符 (打开 “ 开 

对 菜单 ， 局 动 * 命 令 提 示 符 "应 用 程序 ， 即 
cmd.exe) 。 输 入 python 尝 斌 启动 Python 解 释 器 。 
你 应 该 可 以 看 到 与 已 安 和 的 EPDFree 和 版 本 相 匹 配 
的 一 段 消 屋 : 

C:\Users\Wes>python 
Python 2.7.3 |EPD_free 7.3-1 (32-bit)| (default, Apr 12 


2012, 14:30:37) on win32 
Type "credits", "demo" or "enthought" for more information. 


>>> 


如 采 你 看 到 的 是 其 他 版 本 的 EPD 信 息 或 根本 
什么 也 看 不 到 ， 那 束 需 要 清理 Windows 环 境 变 
量 。 在 Windows 7 上 ， 可 以 在 程序 搜索 框 中 输 
入 "environment variables"， 人 然后 编辑 你 的 账户 下 
的 环境 变量 。 在 Windows XP 上 ， 需 要 进入 “控制 
面板 > ~“ 系统 “高 级 ” “环境 变量 ”。 在 弹出 窗 
口中 找到 Path 变 量 。 它 需要 合 有 下 面 这 两 个 以 分 
号 隔 开 的 目 永 路 径 : 


C:\Python27;C:\Python27\Scripts 


如 果 你 之 前 安装 了 其 他 版 本 的 Python， 那 就 
需要 删除 系统 和 用 户 Path 变 量 中 与 之 相关 的 一 切 
路 径 。 人 和 修改 路 径 之 后 ， 需 要 重 局 命令 提示 符 才 能 
使 修改 生效 。 


能 够 在 命令 提示 从 中 成 功 局 动 Python 之 后 ， 
束 该 安 儿 pandas 了 。 最 人 简单 的 办 法 就 是 直接 到 
http://pypi.python.org/pypi/pandas 下 载 合 适 的 二 进 
制 安装 包 。 对 于 EPDFree， 应 该 选择 pandas- 
0.9.0.win32-py2.7.exe。 将 其 安装 好 之 后 ， 接 下 来 
局 动 IPython 来 疲 证 一 下 是 不 是 万 事 俱 备 了 : 引入 
pandas， 然 后 绘制 一 个 人 简单 的 matplotlib 图 形 。 


C:\Users\Wes>ipython --pylab 

Python 2.7.3 |EPD_free 7.3-1 (32-bit)| 

Type "copyright", "credits" or "license" for more 
information. 


IPython 0.12.1 -- An enhanced Interactive Python . 
? -> Introduction and overview of IPython's 
features. 


%quickref -> Quick reference. 
help -> Python's own help systenm. 
object? -> Details about 'object', use 'object??' for 


extra details. 


Welcome to pylab, a matplotlib-based Python environment 
[backend: WXAgg]. For more information, type 'help(pylab)'. 


In [1]: import pandas 


In [2]: plot(arange(10)) 


如 琳 成 功 ， 殊 人 不 会 出 现 锯 误 信息 ， 而 且 会 弹 
出 一 个 绘图 窗口 。 还 可 以 输入 下 列 指令 "让 4 来 检 
查 IPython HTML notebook 古 人 否 安 狼 成 功 : 


$ ipython notebook --pylab=inline 


警告 : 如 果 你 是 在 Windows 上 使 用 IPython 
notebook 应 用 程序 而 且 通 常 使 用 的 是 Internet 
Explorer 的 话 ， 那 你 可 能 需要 改 用 Mozilla Firefox 
或 Google Chrome 了 二 5 。 


Windows 上 的 EPDFree 只 有 32 位 版 本 。 如 果 需 
要 使 用 64 位 版 本 ， 最 向 单 的 办 法 束 古 且 接 使 用 
EPD Full 6。 如 果 你 不 想 购 买 EPD 订 阅 晶 愿意 
目 己 动手 一 步 步 安 又 ， 可 以 试 试 由 加 州 大 学 欧文 
分 校 的 Christoph Gohlke 提 供 的 非 官 方 安装 包 
(http://www.lfd.uci.edu/~gohlke/pythonlibs/) ， 它 


32 位 版 也 有 64 位 版 ， 且 包含 本 书 所 需 的 所 有 
车 O 


革 果 OS XX 


在 OS X 上 ， 首 移 需 要 安装 Xcode， 它 含有 平 
果 的 软件 开发 工具 套件 。 我 们 所 需 的 部 分 是 gcc C 
和 C++ 编译 项 。Xcode 安 雄 包 可 以 在 随 计算 机 发 布 
的 OS X 安 装 光 盘 中 找到 ， 也 可 以 直接 从 笠 果 公司 
的 网 站 上 下 载 。 


装 好 Xcode 之 后 ， 
到 "Applications ~ Utilities" 去 局 动 终端 
(Terminal.app) 。 输 入 gcc 并 按 回 车 键 。 你 将 会 
看 到 如 下 信息 : 


$ gcc 
i686-apple-darwin10-gcc-4.2.1: no input files 


现在 就 该 安装 EPDFree 了 。 下 载 一 个 名 为 
epd_free-7.3-1-macosx-i386.dmg 的 侯 副 锐 像 文件 。 
双击 该 .dmg 文 件 以 将 其 挂 载 到 系统 ， 然 后 双击 其 
中 的 .mpkg 文 件 来 运行 安装 程序 。 


安 猴 文件 局 动 之 后 ， 会 目 动 将 EPDFree 可 执 
行文 件 的 路 径 漆 加 到 你 的 .bash_profile 文 件 中 。 该 
文件 位 于 /Users/your_uname/.bash_profile: 


# Setting PATH for EPD free-7.3-1 
PATH="/Library/Frameworks/Python.framework/Versions/Current/ 
bin:${PATH}" 

export PATH 


如 有 果 在 后 续 步 又 中 遇 到 任何 问题 ， 首 移 应 该 
命 查 一 下 你 的 .bash_profile， 看 看 是 否 需 要 将 上 面 
那个 日 邓 洪 加 进去 。 


现在 吏 该 安 妆 pandas 了 “。 在 终 姗 中 执行 下 面 
XA 


$ sudo easy_install pandas 

Searching for pandas 

Reading http://pypi.python.org/simple/pandas/ 

Reading http://pandas.pydata.org 

Reading http://pandas.sourceforge.net 

Best match: pandas 0.9.0 

Downloading 
http://pypi.python.org/packages/source/p/pandas/pandas- 
0.9.0.zip 

Processing pandas-0.9.0.zip 

Writing /tmp/easy_install-H5mIX6/pandas-0.9.0/setup.cfg 
Running pandas-0.9.0/setup.py -q bdist egg --dist-dir 
/tmp/easy_install-H5mIX6/ 
pandas-0.9.0/egg-dist-tmp-RhLGOz 

Adding pandas 0.9.0 to easy-install.pth file 


Installed 
/Library/Frameworks/Python.framework/Versions/7.3/1ib/python 
2.7/ 

site-packages/pandas-0.9.0-py2.7-macosx-10.5-i386.egg 
Processing dependencies for pandas 

Finished processing dependencies for pandas 


为 了 验证 是 否 一 切 正 第 ， 我 们 以 Pylab 模 式 局 
动 IPython， 然 后 笑 试 加 载 pandas 并 绘制 一 张 


$ ipython --pylab 

22:29 ~/VirtualBox VMs/WindowsXP $ ipython 

Python 2.7.3 |EPD_free 7.3-1 (32-bit)| (default, Apr 12 
2012, 11:28:34) 

Type "copyright", "credits" or "license" for more 
information. 


IPython 0.12.1 -- An enhanced Interactive Python. 
? -> Introduction and overview of IPython's 
features. 


%quickref -> Quick reference. 
help -> Python's own help systenm. 
object? -> Details about 'object', use 'object??' 


for extra details. 

Welcome to pylab, a matplotlib-based Python environment 
[backend: WXAggl]. 

For more information, type 'help(pylab)'. 


In [1]: import pandas 


In [2]: plot(arange(10)) 


如 末 成 功 ， 将 会 阐 出 一 个 绘 独 窗 口 ， 其 中 国 
的 是 一 条 有 直线。 


GNU/Linux 


注意 : 有 些 (但 不 是 全 部 ) Linux 产 品 自 市 
的 Python 包 版 本 较 狐 ， 且 可 以 通过 内 置 的 包 管 理 
工具 (如 apt) 进行 安装 。 我 将 详细 讲解 EPDFree 
的 安 半 步骤， 因为 它 在 不 同 的 Linux 发 行 版 之 间 是 
老 不 多 的 。 


对 于 不 同 的 Linux 产 品 ， 具 体 的 安装 过 程 会 有 

一 些 不 同 ， 我 这 里 将 以 基于 Debian 的 GNU/Linux 
系统 (如 Ubuntu 和 Mint) 为 例 来 进行 讲解 。 除 
EPDFree 之 外 ， 其 他 的 安装 过 程 跟 OS X 疙 不 多 。 
其 安装 包 是 一 个 只 能 在 终端 中 执行 的 shell 脚 本 。 
根据 系统 是 32 位 还 是 64 位 ， 需 要 相应 地 安装 x86 版 

(32 位 ) 或 x86_64 版 (64 位 ) 。 然 后 你 将 会 得 到 
一 个 和 名 为 epd_free-7.3-1-rh5-x86_64.sh 的 文件 。 通 
过 bash 执 行 该 脚本 即 可 开始 安装 : 


$ bash epd_free-7.3-1-rh5-x86_64.sh 


在 接受 了 许可 协议 之 后 ， 你 需要 选择 
EPDFree 文 件 的 存放 位 置 。 我 建议 将 这 些 文件 安 
装 在 你 的 home 目 录 中 ， 比 如 /home/wesm/epd (将 
wesm 替 换 为 你 的 用 户 名 即 可 ) 。 


安装 完毕 之 后 ， 你 需要 将 EPDFree 的 bin 目 条 
添加 到 $PATH 变 量 中 去 。 如 条 你 用 的 是 bash shell 
(比如 Ubuntu 默认 用 的 就 是 这 个 ) ， 则 在 你 
的 .bashrc 中 加 上 下 面 这 人 句 路 径 添 加 指令 : 


export PATH=/home/wesm/epd/bin:$PATH 


很 明显 ， 需 要 将 /home/wesm/epd/ 巷 换 为 你 所 
使 用 的 安装 目录 。 做 完 这 些 事情 之 后 ， 你 可 以 局 


动 一 个 狐 的 终 闪 进程 ， 也 可 以 通过 source ~/.bashrc 
重启 你 的 .bashrc 。 


接 下 来 还 需要 用 到 一 个 C 编 译 器 (比如 
gcc) 。 许 多 Linux 产 品 都 合 有 gcc， 但 有 些 则 没 


sudo apt-get install gcc 
如 果 在 命令 行 中 输入 gcc， 束 可 以 看 到 : 


$ gcc 
gcc: no input files 


现在 可 以 安 狂 pandas 本: 


$ easy_install pandas 


如 有 果 你 是 以 root 权 限 来 安 狼 EPDFree 的 ， 束 和 需 
要 在 命令 中 加 上 sudo 并 输入 sudo 或 root 密 码 。 使 用 
跟 OS X 相 同 的 检测 方式 即 可 验证 是 否 一 切 正 稼 。 


Python 2 和 Python 3 
Python 社区 正在 慢 慢 地 从 Python 2 系列 解释 絮 


过 小 到 Python 3 系列 。 在 Python 3.0 问 世 以 前 ， 所 
有 的 Python 代 码 都 是 同 后 羔 容 的 。 为 了 让 Python 


语言 更 加 先进 ，Python 人 社区 认为 作出 一 些 同 后 不 
兼容 的 修改 是 必要 的 。 


本 书 是 基于 Python 2.7 编 写 的 ， 这 是 因为 大 部 
分 Python 科学 计算 社区 还 没有 转 加 Python 3。 好 请 
居 是 ， 如 果 你 碰巧 正在 使 用 Python 3.2， 在 学 习 本 
书 的 过 程 中 一 般 也 不 会 过 到 什么 麻烦 。 


集成 开发 环境 (IDE) 


当 有 人 问 我 * 你 的 标准 开发 环境 是 怎样 
的 "时 ， 我 几乎 总 是 回答 “IPython 外 加 一 个 文本 编 
辑 硕 ”。 我 通常 都 在 IPython 中 编写 和 调试 程序 ， 
而 且 它 可 以 交互 式 地 处 理 数据 ， 并 通过 可 视 化 的 
方式 验证 某 个 数据 操作 的 结果 是 否 正 确 。 诸 如 
pandas 和 NumPy 这 样 的 库 也 可 以 轻松 便捷 地 在 这 
个 shell 中 使 用 。 


但 是 相对 于 文本 编辑 稻 ， 总 有 人 会 更 辟 欢 
IDE。 因 为 它们 拓 供 了 许多 不 毕 的 “代码 党 能 化 ” 功 
能 ， 比 如 目 动 完成 以 及 快速 获取 画 数 和 类 的 文档 
等 。 你 可 以 试 试 下 面 这 些 : 


Eclipse +PyDev 搬 件 


-Python Tools for Visual Studio 〈 针 对 Windows 
) 


‘PyCharm 
‘Spyder 
‘Komodo IDE 


译注 1: 已 经 更 名 为 Enthought Canopy 。 EPDFree 
对 应 的 是 Enthought Canopy Express。 相 比 来 说 
EPDFree 目 然 更 好 用 ， 不 过 为 了 你 证 阅读 本 书 时 
不 过 到 捆 烦 ， 建 议 按照 本 书 介绍 法 操作 。 (其 实 
丈 算 按照 书 上 的 说 明 损 作 ， 一 样 会 过 到 不 少 厅 
烦 ， 我 会 尽量 给 出 说 明 。) 

译注 2: 虽然 安装 过 程 不 大 轻松 ， 但 还 是 建议 后 面 
泪 一 下 ， 因 为 它 可 以 使 你 在 安装 那些 库 的 时 候 更 
轻松 愉快 。 

译注 3: 由 于 软件 版 本 更 新 较 快 ， 所 以 建议 到 网 上 
找 一 个 一 模 一 样 的 安 效 包 ， 不 然 有 些 例子 的 结 采 
可 能 会 跟 书 上 介绍 的 不 一 样 。 

译注 4: 如 果 只 用 过 Windows ， 要 注意 前 面 
的 "$"， 这 是 Linux 或 UNIX 或 Mac 的 默认 命令 提示 
人 和 从。 本 书 应 该 束 是 用 Mac 测 斌 代码 的 ， 所 以 这 样 
的 所 未 符 不 少 ， 后 面 代码 中 还 有 很 多 ， 请 读者 注 


A 


译注 5: 为 什么 ? 难道 作者 以 为 全 世界 人 民 都 还 在 
用 IE6 不 成 ? 译 者 使 用 IE9/IE10 均 无 压力 完成 。 
译注 6: 还 是 建议 使 用 32 位 版 本 的 ， 最 主要 的 原因 
仍然 是 “ 跟 原 书 一 致 ， 以 免 抓 狂 ”。 


社区 和 研讨 会 


除 搜索 引擎 之 外 ，Python 科 学 计算 邮件 列表 
也 是 很 不 错 的 资源 ， 其 上 的 问题 几乎 都 会 有 人 回 
答 。 可 以 看 看 下 面 这 些 


:pydata: 这 是 一 个 Google Group 邮件 列表 ， 
中 的 问题 都 是 Python 数据 分 析 和 pandas 方 面 


.pystatsmodels: 针对 与 statsmodels 和 pandas 相 
天 的 问题 。 


numpy-discussion: 针对 与 NumPy 相 天 的 问 
种 o 


.Scipy-user: 针对 与 SciPy 和 Python 科学 计算 相 
天 的 问题 。 


我 没有 给 出 具体 的 URL， 因 为 它们 经 常 在 
变 。 通 过 搜索 引擎 即 可 轻松 地 找到 它们 。 


全 世界 每 年 都 会 各 开 许 多 针对 Python 程序 员 
的 人 研讨 会 。PyCon 和 EuroPython 分 别 是 美国 和 欧洲 
最 主要 的 Python 钱 讨 会 。 在 阅读 本 书 之 后 ， 如 采 


你 越 来 越 深 入 地 用 Python 进 行 数据 分 析 ， 束 可 以 
企 SciPy 和 EuroSciPy 这 两 个 面 同 科学 计算 的 Python 
人 赋 讨 会 上 找到 许多 “只 味 相投 的 同道 中 人 ”。 


使 用 本 书 


如 果 之 前 从 未 使 用 过 Python， 那 你 可 能 需要 
移 看 看 本 书 最 后 的 附 孙 部 分 ， 那 是 一 个 讲解 
Python 的 语法 、 语 言 特 性 以 及 内 置 数 据 结构 (如 
元 组 、 列 表 和 字典 等 ) 的 简单 教程 。 这 部 分 内 容 
可 以 看 做 本 书 其 他 内 容 的 预备 知识 。 


本 书 首先 讲解 的 是 IPython 环 境 ， 然 后 简单 地 
介绍 了 NumPy 的 关键 特性 ，NumPy 其 他 的 高 级 功 
能 则 在 本 书 最 后 一 章 讲 解 。 然 后 我 介绍 了 
pandas。 本 书 其 余部 分 则 介绍 了 综合 运用 pandas 、 
NumPy 和 matplotlib 〈 用 于 可 视 化 ) 进行 数据 分 析 
的 相关 知识 。 我 尽量 以 增 量 的 形式 组 织 各 种 材 
料 ， 但 偶尔 还 是 会 出 现 一 些 跨 章节 的 知识 点 。 


”各 章 的 数据 文件 及 相 天 材料 存放 在 GitHub 上 


详 注 7. 
http://github.com/pydata/pydata-book 


我 强烈 建议 你 下 载 这 些 数 据 ， 然 后 用 各 革 所 
介绍 的 工具 重 写 示 例 代码 。 我 非 第 欢迎 大 家 为 本 
书 的 git 库 提供 文 稳 、 脚 本 、IPython 笔 记 本 以 及 其 
他 各 种 有 用 的 资源 。 


代码 示例 


本 书 大 部 分 代码 示例 的 输入 形式 和 输出 结 来 
ee shell 中 执行 时 的 样子 进行 排 


In [5]: code 
Out[5]: output 


有 时 ， 为 了 简洁 明了 ， 多 个 代码 示例 将 会 j 


排 巡 示 。 这 皮 代 查 示例 应 该 从 元 刘 右 进行 阅读 ， 
且 应 该 分 别 执行 。 


In [5]: code In [6]: code2 
Out[5]: output Out[6]: output2 
示例 数据 


各 草 有 的 示例 数据 都 存放 在 GitHub 上 : 
http://github.com/pydata/pydata-book。 下 载 这 些 数 
据 的 方法 有 二 : 使 用 git 版 本 控制 命令 行程 序 ， 直 
接 从 网 站 上 下 载 该 GitHub 库 的 zip 文 件 。 


为 了 让 所 有 示例 都 能 重 现 ， 我 尽量 使 其 包含 
所 有 必需 的 东西 ， 但 仍然 可 能 会 有 一 些 错 误 或 进 
漏 。 如 采 出 现 这 种 情况 的 话 ， 请 给 我 发 邮件 : 


wesmckinn@gmail.com ° 


引入 惯例 


Python 侍 区 已 经 广泛 接受 了 一 些 第 用 模块 的 
和 全 丰 性 
HH 名 图 例 : 
import numpy as np 


import pandas as pd 
import matplotlib.pyplot as pilt 


也 束 古 说 ， 当 你 看 到 np.arange 时 ， 束 应 该 想 
到 它 引 用 的 是 NumPy 中 的 arange 凡 数 。 这 样 做 的 
原因 是 : 在 Python 软 件 开发 过 程 中 ， 不 建议 直接 
引入 类 似 NumPy 这 种 大 型 库 的 全 部 内 容 (from 


numpy import *) 。 
行 话 
由 于 你 可 能 不 太 熟 悉 书 中 使 用 的 一 些 有 关 编 


程 和 数据 科学 方面 的 和 常用 术语 ， 所 以 我 在 这 里 先 
给 出 其 倘 单 定义 : 
数据 规整 (Munge/Munging/Wrangling) “8 
指 的 是 将 非 结构 化 和 (或 ， 散乱 数据 处 理 为 
结构 化 或 整 活 形 式 的 整个 过 程 。 这 几 个 词 已 经 悄 
悄 成 为 当今 效 据 墨客 们 的 行 话 了 。Munge 这 个 词 
跟 Lunge 押 竟 。 


伪 码 (Pseudocode) 


算法 或 过 程 的 “代码 式 ” 插 述 ， 而 这 些 代 码 本 
号 并 不 是 实际 有 效 的 兰 代 码 。 


语法 糖 (Syntactic sugar) 


这 是 一 种 编程 语法 ， 它 并 不 会 市 来 新 的 特 
性 ， 但 却 能 使 代码 更 易 读 、 更 易 写 。 


详 广 7: 拿 到 书 束 马上 去 下 载 ， 一 来 是 防止 链接 不 
可 用 ， 二 来 和 站 数据 有 点 大 ， 宽 市 较 小 的 话 .…… 

详 广 8: 本 来 想 不 翻 译 的 ， 但 旦 原文 中 这 儿 个 到 处 
混用 ， 搞 得 我 强迫 症 爆 发 ， 直 接 全 翻译 成 < 数据 规 


豆 ” 6 
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心 团队 (Fernando Pérez 、Brian Granger 、 Min 
Ragan-Kelly、 Thomas Kluyver 等 ) 、John 
Hunter ~、 Skipper Seabold 、 Travis Oliphant 、 Peter 
Wang 、 Eric Jones ~ Robert Kern 、 Josef Perktold 、 
Francesc Alted、Chris Fonnesbeck， 示 有 很 多 人 整 
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次 。 


第 2 章 引言 
本 书 将 要 向 你 介绍 的 是 用 于 高 效 处 理 数据 的 
Python 工具 。 虽 然 读 者 各 自 工作 的 最 终 目 的 千 差 
万 别 ， 但 基本 都 需要 完成 以 下 几 个 大 类 的 任务 : 
与 外 界 进 行 交 互 
读 写 各 种 各 样 的 文件 格式 和 数据 库 。 
准备 


对 数据 进行 清理 、 人 和 修整、 整合 、 规 范 化 、 重 
塑 、 切 斤 切 块 、 变 形 等 处 理 以 便 进 行 分 析 。 


转换 


对 数据 集 做 一 些 数 学 和 统计 运算 以 产生 新 的 
数据 集 。 比 如 说 ， 根 据 分 组 变量 对 一 个 大 表 进 行 


x 人 
聚合 。 


建 模 和 计算 


将 数据 跟 统 计 模 型 、 机 器 学 习 算法 或 其 他 计 
算 工具 联系 起 来 。 


展示 
创建 交互 式 的 或 静态 的 图 厂 或 文子 摘要 。 


我 将 在 本 章 中 给 出 一 些 范 例 数据 集 ， 并 讲解 
我 们 能 对 其 做 些 什 么 。 这 些 例子 仅仅 是 为 了 提起 
你 的 兴趣 ， 因 此 只 会 在 一 个 比较 高 的 层次 进行 讲 
解 。 即 使 你 从 来 没 用 过 这 些 东 西 也 没关系 ， 本 书 
后 续 的 半 太 将 会 对 此 进行 非常 详细 的 讲解 。 在 这 
些 代码 示例 中 ， 你 可 以 看 到 诸如 In [15]: 之 类 的 输 
入 输出 提示 符 ， 它 们 来 目 IPython shell 。 


来 目 bit.ly 的 1.usa.gov 效 据 


2011 年 ，URL 缩 短 服务 bit.ly 跟 美国 政府 网 站 
usa.gov 合 作 ， 提供 了 一 份 从 生成 .gov 或 .mil 短 链接 
的 用 户 那 里 收集 来 的 匿名 数据 “1 。 直到 编写 本 
书 时 为 止 ， 除 实时 数据 “2 之 外 ， 还 可 以 下 载 文 
本 文件 形式 的 每 小 时 快照 二 1 。 


以 每 小 时 快照 为 例 ， 文 件 中 各 行 的 格式 为 
JSON ( 即 JavaScript Object Notation， 这 是 一 种 常 
用 的 Web 数据 格式 ) 。 例 如 ， 如 果 我 们 只 读 取 某 
个 文件 中 的 第 一 行 ， 那 么 你 所 看 到 的 结 采 应 该 是 
下 面 这 样 : 


In [15]: path = 'cho2/usagov_bitly_data2012-03-16- 
1331923249. txt' 


In [16]: open(path).readline() 

Out[16]: '{ "a": "Mozilla\\/5.0 (Windows NT 6.1; WOw64) 
ApplewebKit\\/535.11 (KHTML, like Gecko) Chrome\\/17.0.963.78 
Safari\\/535.11", "c": "US", "nk": 1, "tz": 

"America\\/New York", "gr": "MA", "g": "A6qOVH", "h": 
"wfLQtf", "1": "orofrog", "al": "en-US,en;q=0.8", "hh": 
"1.usa.gov", "r": 
"http:\\/\\/www.facebook.com\\/1\\/7AQEFzjSi\\/1.usa.gov\\/wf 
LQtf", nu: 
"http:\\/\\/www.ncbi.nlm.nih.gov\\/pubmed\\/22415991", "t": 
1331923247, "hc":1331822918, "cy": "Danvers", "11": [ 
42.576698, -70.954903 ] }\n' 


Python 有 许多 内 秆 或 第 三 方 模块 可 以 将 JSON 
字符 串 转 换 成 Python 字典 对 象 。 这 里 ， 我 将 使 用 


import json 
path = 'ch02/usagov_bitly data2012-03-16-1331923249.txt' 
records = [json.loads(line) for line in open(path)] 


你 可 能 之 前 没 用 过 Python， 解 释 一 下 上 面 最 
后 那 行 表 达 式 ， 它 叫做 列表 推导 式 (list 
comprehension) ， 这 是 一 种 在 一 组 字符 串 (或 一 
组 别 的 对 象 ) 上 执行 一 条 相同 操作 (如 
json.loads) 的 简洁 方式 。 在 一 个 打开 的 文件 句柄 
上 进行 迭代 即 可 获得 一 个 由 行 组 成 的 序列 。 现 
在 ，records 对 象 天 成 为 一 组 Python 字典 了 : 


In [18]: records[0] 

Out[18]: 

{Uu'a': U'Mozilla/5.0 (Windows NT 6.1; WOW64) 
ApplewebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.78 
Safari/535.11', u'al': Uu'en-US,en;dq=0.8', 

uU'c': U'US', 

U'cy': U'Danvers '， 

U'g': U'A6dOVH '， 

U'gr': u'MA', 

u'h': u'wfLQtf'", 

u'hc': 1331822918, 

u'hh': u'1.usa.gov', 

u'l1': Uu'orofrog', 

u'll': [42.576698, -70.954903], 

u'nk': 1, 

U'r': 
u'http://www.facebook.com/1/7AQEFzjSi/1.usa.gov/wfLQtf', 
uU't': 1331923247, 


U'tz': U'America/New York', 
U'U': u'http://www.ncbi.nlm.nih.gov/pubmed/22415991'} 


注意 ，Python 的 索引 是 从 0 开始 的 ， 不 像 其 他 
某 些 语言 是 从 1 开始 的 《如 R) 。 现 在 ， 只 要 以 字 
从 串 的 形式 给 出 想 要 访问 的 键 束 可 以 得 到 当前 记 
采 中 相应 的 值 了 : 


In [19]: records[0]['tz'] 
Out[19]: u'America/New_York' 


单 引 号 前 面 的 u 表 示 unicode (一 种 标准 的 字符 
串 编 码 格 式 ) 。 注 意 ，IPython 在 这 里 给 出 的 是 时 
区 的 字符 串 对 象形 式 ， 而 不 是 其 打印 形式 : 


In [20]: print records[0]['tz'] 
America/New_York 


用 纯 python 代 码 对 时 区 进行 计数 


假设 我 们 想 要 知道 该 数据 集中 最 第 出 现 的 十 
哪个 时 区 ( 即 tz 字段 ，， 得 到 答案 的 办 法 有 很 多 。 
首先 ， 我 们 用 列表 推导 式 取 出 一 组 时 区 : 


In [25]: time zones = [rec['tz'] for rec in records] 
KeyError Traceback (most recent call last) 
/home/wesm/book_scripts/whetting/<ipython> in <module>() 
----> 1 time zones = [rec['tz'] for rec in records] 


KeyError: 'tz' 


电 ! 原来 并 不 是 所 有 记录 都 有 时 区 字段 。 这 
个 好 办 ， 只 和 需 在 列表 推导 式 末 尾 加 上 一 个 if 'tz'in 
rec 判 断 即 可 : 


In [26]: time zones = [rec['tz'] for rec in records if tz 
in rec] 


In [27]: time zones[ :10] 
Out[27] : 
[u'America/New_York', 
u'America/Denver', 
U'America/New_ York ' ， 
u'America/Sao_ Paulo', 
u'America/New_York"', 
u'America/New_York"', 
Uu'Europe/Warsaw', 

U"'! 


了 


u''] 
只 看 前 10 个 时 区 ， 我 们 发 现 有 些 是 未 知 的 

( 即 空 的 ) 。 虽 然 可 以 将 它们 过 滤 掉 ， 但 现在 千 

时 先 留 着 。 接 下 来 ， 为 了 对 时 区 进行 计数 ， 这 里 

介绍 两 个 办 法 : 一 个 较 难 〈 只 使 用 标准 Python 

库 ) ， 另 一 个 较 简 单 〈 使 用 pandas) 。 计 数 的 办 法 

和 


def get_counts(sequence): 
counts = {} 
for x in sequence: 
if x in counts: 
counts[x] += 1 
else: 
counts[x] = 1 
return counts 


如 果 韭 常 了解 Python 标 准 库 ， 那 么 你 可 能 会 
将 代码 写 得 更 人 简洁 一 些 : 


from collections import defaultdict 


def get_counts2(sequence): 
counts = defaultdict(int) # 所 有 的 值 均 会 被 初始 化 为 9 
for x in sequence: 
counts[x] += 1 
return counts 


我 将 代码 写 到 函数 中 是 为 了 获得 更 高 的 可 重 
用 性 。 要 用 它 对 时 区 进行 处 理 ， 只 需 将 time_zones 
传 入 即 可 : 


In [31]: counts = get_counts(time_zones ) 


In [32]: counts['America/New_York'] 
Out[32]: 1251 


In [33]: len(time_zones) 
Out[33]: 3440 


如 来 想 要 得 到 前 10 位 的 时 区 及 其 计数 值 ， 我 
们 需要 用 到 一 些 有 关 字 典 的 处 理 技巧 


def top_counts(count_dict, n=10): 

value_key_pairs = [(count, tz) for tz, count in 
count_dict.items()] 

value_ key_pairs.sort() 

return value_ key_pairs[-n:] 


现在 我 们 整 可 以 : 


In [35]: top_counts(counts ) 
Out[35] : 


[(33, u'America/Sao_Paulo'), 
(35, Uu'Europe/Madrid'"'), 

(36, u'Pacific/Honolulu'), 
(37, Uu'Asia/Tokyo'), 

(74, uU'Europe/London'), 

(191, u'America/Denver'), 
(382, U'America/Los_ Angeles'), 
(400, u'America/Chicago'), 
(521, u''), 

(1251, u'America/New_York')] 


你 可 以 在 Python 标 准 库 中 找到 
collections.Counter 类 ， 它 能 使 这 个 任务 变 得 更 倍 
有 


In [49]: from collections import Counter 
In [50]: counts = Counter(time_zones ) 


In [51]: counts.most_common(190 ) 

Out[51] : 

[(u'America/New_ York', 1251), 
(u'', 521), 
(u'America/Chicago', 400), 
(u'America/Los_ Angeles', 382), 
(u'America/Denver', 191), 
(u'Europe/London', 74), 
(u'Asia/Tokyo', 37), 
(u'Pacific/Honolulu', 36), 
(u'Europe/Madrid', 35), 
(u'America/Sao_ Paulo', 33)] 


用 pandas 对 时 区 进行 计 炎 


DataFrame 古 pandas 中 最 重要 的 数据 结构 ， 它 
用 于 将 数据 表示 为 一 个 表格 。 从 一 组 原始 记录 中 
创建 DataFrame 是 很 简单 的 : 


In [289]: from pandas import DataFrame, Series 
In [290]: import pandas as pd; import numpy as np 
In [291]: frame = DataFrame(records ) 


In [292]: frame 

Out[292] : 

<class 'pandas .core.frame,DataFrame '> 
Int64Index: 3560 entries, 0 to 3559 
Data columns : 


_heartbeat 120 non-null values 
a 3440 non-null values 
al 3094 non-null values 
C 2919 non-null values 
cy 2919 non-null values 
g 3440 non-null values 
gr 2919 non-null values 
h 3440 non-null values 
hc 3440 non-null values 
hh 3440 non-null values 
kw 93 non-null values 

了 3440 non-null values 
11 2919 non-null values 
nk 3440 non-null values 
r 3440 non-null values 
t 3440 non-null values 
tz 3440 non-null values 
U 3440 non-null values 


dtypes: float64(4), object(14) 


In [293]: frame['tz'][:10] 
Out[293]: 
0 America/New_York 
America/Denver 
America/New_York 
America/Sao_Paulo 
America/New_York 
America/New_York 
Europe/Warsaw 


二 OONOORODP 


ame: tz 


这 里 frame 的 输出 形式 是 摘要 视图 (summary 
view) ， 主 要 用 于 较 大 的 DataFrame 对 象 。 
frame['tz'] 所 这 回 的 Series 对 象 有 一 个 value_counts 方 
法 ， 该 方法 可 以 让 我 们 得 到 所 需 的 信息 : 


In [294]: tz_counts = frame['tz'].value_counts() 


In [295]: tz_counts[:10] 


Out[295]: 
America/New_York 1251 
521 
America/Chicago 400 
America/Los_Angeles 382 
America/Denver 191 
Europe/London 74 
Asia/Tokyo 37 
Pacific/Honolulu 36 
Europe/Madrid 35 
America/Sao_Paulo 33 


然后 ， 我 们 想 利用 绘图 库 ( 即 matplotlib) 为 

这 上 段 数据 生成 一 张 图 片 。 为 此 ， 我 们 先 给 记录 中 
未 知 或 足 失 的 时 区 填 上 一 个 蕉 代 值 。 人 Ina 函数 可 
以 玲 换 缺失 值 (NA) ， 而 未 知 值 (空子 符 串 ) 则 
可 以 通过 布尔 型 数组 索引 加 以 车 换 : 

In [296]: clean tz = frame['tz'].fillna( 'Missing') 

In [297]: clean_ tz[clean tz == ''] = 'Unknown' 

In [298]: tz_counts = clean tz.value_ counts() 

In [299]: tz_counts[:10] 

out[299] : 

America/New_York 1251 


Unknown 521 
America/Chicago 400 


America/Los_Angeles 382 


America/Denver 191 
Missing 120 
Europe/London 74 
Asia/Tokyo 37 
Pacific/Honolulu 36 
Europe/Madrid 35 


利用 counts 二 二 3 对 象 的 plot 方 法 即 可 得 到 一 张 
水 平 条 形 图 于 4 


In [301]: tz_counts[:10].plot(kind='barh', rot=0) 


最 终结 果 如 图 2-1 所 示 。 我 们 还 可 以 对 这 种 数 
据 进 行 很 多 处 理 。 比 如 说 ，a 字 上 段 含 有 执行 URL 短 
缩 探 作 的 浏览 絮 、 设 备 、 应 用 程序 的 相关 信息 : 


In [302]: frame['a'][1] 
Out[302]: u'GoogleMaps/RochesterNY' 


In [303]: frame['a'][50] 
Out[303]: u'Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) 
Gecko/20100101 Firefox/10.0.2' 


In [304]: frame['a'][S1] 

Out[304]: u'Mozilla/5.0 (Linux; U; Android 2.2.2; en-us; LG- 
P925/V1iQe Build/FRG836) ApplewebKit/533.1 (KHTML, like Gecko) 
Version/4.0 Mobile Safari/533.1' 


Europe/Madrid 


Pacific/Honolulu 
Welaliolkyol ee MO 
Europe/London 
Missing 
America/Denver 
America/Los Angeles 
America/Chicago 
Unknown 
America/New York 
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图 2-1: 1.usa.gov 示 例 效 据 中 最 章 出 现 的 时 区 


将 这 些 "agent" 字 符 串 “5 中 的 所 有 信息 都 解 
析出 来 是 一 件 挺 郁闷 的 工作 。 不 过 只 要 你 掌握 了 
Python 内 萤 的 字符 串 函 数 和 正则 表达 式 ， 事 情 整 
好 办 了 。 比 如 说 ， 我 们 可 以 将 这 种 字符 串 的 第 一 
节 (与 浏览 硕大 致 对应) 分 离 出 来 并 得 到 另外 一 
份 用 户 行 为 摘要 : 


In [305]: results = Series([x,Split()[0] for x in 
frame.a.dropna( )]) 


In [306]: results[:5] 
Out[306]: 

Mozilla/5.0 
1 GoogleMaps/RochesterNY 
2 Mozilla/4.0 
3 Mozilla/5.0 
4 Mozilla/5.0 


In [307]: results.value counts()[:8] 


Out[307]: 

Mozilla/5.0 2594 
Mozilla/4.0 601 
GoogleMaps/RochesterNY 121 


Opera/9.80 34 


TEST_INTERNET_AGENT 24 


GoogleProducer 21 
Mozilla/6.0 5 
BlackBerry8520/5.0.0.681 4 


现在 ， 假 设 你 想 按 Windows 和 非 Windows 用 户 
对 时 区 统计 信息 进行 分 解 。 为 了 人 徐 单 起 见 ， 我 们 
假定 只 要 agent 字 从 串 中 售 有 "Windows" 束 认为 该 用 
户 为 Windows 用 户 。 由 于 有 有 的 agent 缺 失 ， 所 以 首 
完 将 它们 从 数据 中 移 除 : 


In [308]: cframe = frame[frame.a.notnull()] 


其 次 根据 a 值 计算 出 各 行 是 否 古 Windows: 


In [309]: operating_system = 
np.where(cframe['a'].str.contains('Windows'), 
a 'Windows', 'Not Windows') 


In [310]: operating_system[:5] 
Out[310]: 

0 Windows 

1 Not Windows 
2 Windows 
3 Not Windows 
4 Windows 
N 


接 下 来 殉 可 以 根据 时 区 和 新 得 到 的 操作 系统 
列表 对 数据 进行 分 组 了 : 


In [311]: by_tz_os = cframe.groupby(['tz', operating_system]) 


然后 通过 size 对 分 组 结果 进行 计数 《类似 于 上 
面 的 value_counts 函 数 ) ， 并 利用 unstack 对 计数 结 
果 进 行 重 塑 : 


In [312]: agg_counts = by_tz_os.size().unstack().fillna(o0) 


In [313]: agg_counts[:10] 
Out[313]: 
a Not Windows Windows 
tz 

245 


DD 
下 
O) 


Africa/Cairo 

Africa/Casablanca 
Africa/Ceuta 
Africa/Johannesburg 
Africa/Lusaka 
America/Anchorage 
America/Argentina/Buenos_Aires 
America/Argentina/Cordoba 
America/Argentina/Mendoza 


最 后 ， 我 们 来 选取 最 单 出 现 的 时 区 。 为 了 达 
到 这 个 目的 ， 我 根据 agg_counts 中 的 行 数 构造 了 一 
个 间接 索引 效 组 : 


In [314] : indexer = agg_counts.sum(1).argsort() 


OOPAPAROOOO0O 
POPPAPPANPO 


In [315]: indexer[:10] 


Out[315]: 
tz 

24 
Africa/Cairo 20 
Africa/Casablanca 21 
Africa/Ceuta 92 
Africa/Johannesburg 87 
Africa/Lusaka 53 
America/Anchorage 54 


America/Argentina/Buenos_Aires 57 


America/Argentina/Cordoba 26 
America/Argentina/Mendoza 55 


然后 我 通过 take 按 照 这 个 顺序 截取 了 最 后 10 


一 一 


人 


In [316]: count_subset = agg_counts.take(indexer)[-10:] 


In [317]: count_subset 


Out[317]: 
a Not Windows Windows 
tz 
America/Sao_Paulo 13 20 
Europe/Madrid 16 19 
Pacific/Honolulu 0 36 
Asia/Tokyo 2 35 
Europe/London 43 31 
America/Denver 132 59 
America/Los_Angeles 130 252 
America/Chicago 115 285 
245 276 
America/New_York 339 912 


这 里 也 可 以 生成 一 张 条 形 图 。 我 将 使 用 
stacked=True 来 生成 一 张 堆积 条 形 图 (如 图 2-2 所 
示 ) 


In [319]: count_subset.plot(kind='barh', stacked=True) 


由 于 在 这 张 图 中 不 太 容 易 看 消 苞 较 小 分 组 中 
Windows 用 户 的 相对 比例 ， 因 此 我 们 可 以 将 各 行规 
范 化 为 "总计 为 1 并 重新 绘图 〈 如 图 2-3 所 示 ) 

In [321]: normed_subset = 


count_subset.div(count_subset.sum(1), axis=0) 
In [322]: normed_ subset.plot(kind="'barh', stacked=True) 


这 里 所 用 到 的 所 有 方法 都 会 在 本 书后 续 的 草 
节 中 详细 讲解 。 


译注 1: 由 于 可 以 通过 短 链 接 伪 造 .gov 后 弧 的 
URL， 导 致 用 户 访问 恶意 域名 ， 所 以 美国 政府 开 
始 看 手 处 理 这 种 事情 了 。 

译 六 2， 以 Feed 形 式 提供 。 

注 1: 网 址 : http://www.usa.gov/About/developer- 
resources/1usagov.shtml ° 

译注 3: 应 该 是 tz_counts 。 

译注 4: 注意 ,一 定 要 以 pylab 模 式 打 开 ， 否 则 这 条 
代码 没 鸡 果 。 包 括 很 多 缩写 ，pylab 痢 直接 弄 好 
了 ， 如 来 不 是 用 这 种 模式 打开 ， 后 面 很 多 代码 一 
样 会 遇 到 问题 ， 虽然 不 是 什么 大 毛病 ， 但 毕竟 兢 
烦 。 后 面 如 来 过 到 这 没 定义 那 找 不 到 的 情况 ， 整 
请 注意 是 不 是 因为 这 个 。 

译注 5:， 即 浏览 器 的 USER_AGENT 信 息 。 


MovieLens 1M 效 据 集 


GroupLens Research 

(http://www.grouplens.org/node/73) 采集 了 一 组 从 
a Ni 

影评 分 数据 。 这 些 数据 中 包括 电影 ` 电 影 
元 数据 (风格 类 型 和 年 代 ) 以 及 关于 用 户 的 太白 
统计 学 数据 〈 年 龄 、 邮 编 、 性 别 和 职业 等 ) 。 基 
于 机 器 学 习 算法 的 推荐 系统 一 般 部会 对 此 类 数据 
感 兴趣 。 虽然 我 不 会 在 本 书 中 话 细 介绍 机 器 学 习 
技术 ， 但 我 会 告诉 你 如 何 对 这 种 数据 进 并行 切 斤 切 
块 以 满足 实际 需求 。 
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2-2: 按 Windows 和 非 Windows 用 户 统计 的 最 第 
出 现 的 时 区 


America/New_York a 
Eu Not Windows | 
Windows 


America/Chicago 
America/Los_Angeles 
America/Denver 
Europe/London 
Asia/Tokyo 
Pacific/Honolulu 


Europe/Madrid 


America/Sao_Paulo 


0.0 0.2 0.4 0.6 0.8 1.0 


图 2-3: 按 Windows 和 非 windows 用 户 比 例 统 计 的 
最 常 出 现 的 时 区 


MovieLens 1M 数 据 集 含 有 来 目 6000 名 用 户 对 
4000 部 电影 的 100 万 条 评分 数据 。 它 分 为 三 个 表 : 
评分 、 用 成 信息 和 电影 信息 。 将 该 数据 从 zip 文 件 
中 解压 出 来 之 后 ， 可 以 通过 pandas.read_table 将 各 
个 表 分 别 该 到 一 个 pandas DataFrame 对 和 象 中 : 


Import pandas as pd 


unames = ['user_id', 'gender', "age'， :occupation'"， 'zip'] 
users = pd.read table('ml-1im/users.dat', sep="'::', 
header=None, names=unames) 


rnames = ['user_id', 'movie_ id', 'rating', 'timestamp'] 
ratings = pd.read_ table('ml-1im/ratings.dat', sep="::'", 


header=None，names=rnames ) 
mnames = ['movie id', 'title', 'genres'] 


movies = pd.read table('ml-1im/movies.dat', sep="::", 
header=None, names=mnames) 


利用 Python 的 切片 语法 ， 通 过 查看 每 个 
DataFrame 的 前 儿 行 即 可 验证 数据 加 载 工 作 是 否 一 
切 顺 利 : 


In [334]: users[:5] 


Out[334]: 

user_id gender age occupation zip 
0 1 F 1 10 48067 
1 2 M 56 16 70072 
2 3 M 25 15 55117 
3 4 M 45 7 02460 
4 5 M 25 20 55455 


In [335]: ratings[:5] 


Out[335]: 
user_id movie id rating timestamp 
0 1 1193 5 978300760 
1 1 661 3 978302109 
2 1 914 3 978301968 
3 1 3408 4 978300275 
4 1 2355 5 978824291 
In [336]: movies[:5] 
Out[336]: 
movie_id title 
genres 
0 1 Toy Story (1995) 
Animation|Children's|Comedy 
1 2 Jumanji (1995) 
Adventure|Cchildren's|Fantasy 
2 3 Grumpier 0]1d Men (1995) 
Comedy |Romance 
3 4 Waiting to Exhale (1995) 
Comedy |Drama 
4 5 Father of the Bride Part II (1995) 


Comedy 


In [337]: ratings 

Out[337] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000209 entries, © to 1000208 
Data columns: 


user_id 1000209 non-null] values 
movie_id 1000209 non-null] values 
rating 1000209 non-null values 


timestamp 1000209 non-null values 
dtypes: int64(4) 


注意 ， 其 中 的 年 龄 和 职业 是 以 编码 形式 给 
的 ， 它 们 的 具体 仿 义 请 参考 该 数据 集 的 README 
文件 。 分 析 散 布 在 三 个 表 中 的 数据 可 不 是 一 件 轻 
松 的 事情 。 假 设 我 们 想 要 根据 性 别 和 年 龄 计算 某 
部 电影 的 平均 得 分 ， 如 果 将 所 有 数据 都 合并 到 一 
个 表 中 的 话 问 题 束 简单 多 了 。 我 们 先 用 pandas 的 
merge 国 效 将 ratings 跟 users 合 并 到 一 起 ， 然 后 再 将 
movies 也 合并 进去 。pandas 会 根据 列 名 的 重 登 情况 
推断 出 哪些 列 是 合并 (或 连接 ) 键 : 


In [338]: data = pd.merge(pd.merge(ratings, users), movies) 


In [339]: data 

Out[339] : 

<class 'pandas .core.frame,DataFrame '> 
Int64Index: 1000209 entries，0 to 1000208 
Data columns : 


user_id 1000209 non-null values 
movie_id 1000209 non-null values 
rating 1000209 non-null values 
timestamp 1000209 non-null values 
gender 1000209 non-null values 
age 1000209 non-null values 
occupation 1000209 non-null values 
zip 1000209 non-null values 


title 1000209 non-null values 


genres 1000209 non-null values 
dtypes: int64(6), object(4) 


In [340]: data.ix[0] 


Out[340]: 

user_id 1 
movie_id 1 
rating 5 
timestamp 978824268 
gender F 
age 1 
occupation 10 
zip 48067 
title Toy Story (1995) 
genres Animation|Children's|Comedy 
Name: 0 


现在 ， 只 要 稍微 熟悉 一 下 pandas， 束 能 轻松 地 
根据 任意 个 用 户 或 电影 属性 对 评分 数据 进行 聚合 
操作 了 。 为 了 按 性 别 计算 每 部 电影 的 平均 得 分 ， 
我 们 可 以 使 用 pivot_table 方 法 : 


In [341]: mean_ratings = data.pivot_ table('rating', 
rows="'title', 
a cols='gender', aggfunc='mean') 


In [342]: mean_ratings[:5] 
Out[342]: 
gender F M 
title 
$1,000,000 Duck (1971) 3.375000 2.761905 
'Night Mother (1986) 3.388889 3.352941 
'Til There Was You (1997) 2.675676 2.733333 
'burbs, The (1989) 2.793478 2.962085 

. ,And Justice for All (1979) 3. 3: 


该 控 作 产生 了 男 一 个 DataFrame， 1 
影 平 均 得 分 ， 行 标 为 电影 名 称 ， 列 标 为 性 别 。 
在 ， 我 打算 过 渡 挥 评分 数据 不 够 250 条 的 电影 (全 


便 选 的 一 个 数字 ) 。 为 了 达到 这 个 目的 ， 我 先 对 
title 进 行 分 组 ， 然 后 利用 size() 得 到 一 个 含有 各 电影 
分 组 大 小 的 Series 对 和 象 : 


In [343]: ratings_by_title = data.groupby('title').sizel() 


In [344]: ratings_by_title[:10] 


Out[344] : 

title 

$1,000,000 Duck (1971) 37 
'Night Mother (1986) 70 
'Til There Was You (1997) 52 
'burbs, The (1989) 303 
.. ,And Justice for All (1979) 199 
1-900 (1994) 2 
10 Things I Hate About You (1999) 700 
101 Dalmatians (1961) 565 
101 Dalmatians (1996) 364 
12 Angry Men (1957) 616 


In [345]: active titles = 
ratings_by_title.index[ratings_by_title >= 250] 


In [346]: active titles 


Out[346]: 

Index(['burbs, The (1989), 10 Things I Hate About You (1999), 
101 Dalmatians (1961), ..., Young Sherlock Holmes 

(1985), 


Zero Effect (1998), eXistenz (1999)], dtype=object) 


该 索引 中 含有 评分 数据 大 于 250 条 的 电影 人 4 
称 ， 然后 我 们 就 可 以 据 此 从 剖面 的 mean_ratings 中 
选取 所 需 的 行 了 : 


In [347]: mean_ratings = mean_ratings.ix[active_titles] 


In [348]: mean_ratings 
Out[348]: 
<class 'pandas.core.frame.DataFrame'> 


Index: 1216 entries, 'burbs, The (1989) to eXistenz (1999 ) 
Data _ columns : 

F 1216 non-null values 

M 1216 non-null values 

dtypes: float64(2) 


为 了 了 解 女 性 观众 最 辟 欢 的 电影 ， 我 们 可 以 
对 F 列 降序 排列 : 


In [350]: top_female_ratings = 
mean_ratings.sort_index(by='F', ascending=False) 


In [351]: top_female ratings[:10] 
Out[351] : 

gender 

F M 

title 

Close Shave, A (1995) 

4.644444 4.473795 

Wrong Trousers, The (1993) 
4.588235 4.478261 

Sunset Blvd. (a.k.a. Sunset Boulevard) (1950) 
4.572650 4.464589 

Wallace & Gromit: The Best of Aardman Animation (1996) 
4.563107 4.385075 

schindler's List (1993) 

4.562602 4.491415 

Shawshank Redemption, The (1994) 
4.539075 4.560625 

Grand Day Out, A (1992) 

4.537879 4.293255 

To Kill a Mockingbird (1962) 
4.536667 4.372611 

Creature Comforts (1990) 

4.513889 4.272277 

Usual Suspects, The (1995 ) 
4.513317 4.518248 


计算 评分 分 歧 


假设 我 们 想 要 找 出 男性 和 女性 观众 分 政 最 大 
的 电影 。 一 个 办 法 是 给 mean_ratings 加 上 一 个 用 于 
存放 平均 得 分 之 差 的 列 ， 并 对 其 进行 排序 : 


In [352]: mean_ratings['diff'|] = mean_ratings['M'] - 
mean_ratings['F'] 


按 "diff" 排 序 即 可 得 到 分 导 最 大 且 女 性 观众 更 
豆 欢 的 电影 : 


In [353]: sorted by_ diff = mean_ratings.sort_index(by='diff') 


In [354]: sorted by_diff[:15] 


Out[354] : 

gender F M 
diff 

title 

Dirty Dancing (1987) 3.790378 2.959596 
-0.830782 

Jumpin' Jack Flash (1986 ) 3.254717 2.578358 
-0.676359 

Grease (1978 ) 3.975265 3.367041 
-0.608224 

Little Women (1994 ) 3.870588 3.321739 
-0.548849 

Steel Magnolias (1989 ) 3.901734 3.365957 
-0.535777 

Anastasia (1997 ) 3.800000 3.281609 
-0.518391 

Rocky Horror Picture Show, The (1975) 3.673016 3.160131 
-0.512885 

Color Purple, The (1985 ) 4.158192 3.659341 
-0.498851 

Age of Innocence, The (1993) 3.827068 3.339506 
-0.487561 

Free Willy (1993 ) 2.921348 2.438776 
-0.482573 

French Kiss (1995 ) 3.535714 3.056962 
-0.478752 


Little Shop of Horrors, The (1960) 3.650000 3.179688 


-0.470312 


Guys and Dolls (1955) 4.051724 3.583333 
-0.468391 
Mary Poppins (1964) 4.197740 3.730594 
-0.467147 
Patch Adams (1998) 3.473282 3.008746 
-0.464536 


对 排序 结果 反 序 并 取出 前 15 行 ， 得 到 的 则 是 
级 性 观众 更 喜欢 的 电影 ; 


# 对 行 反 序 ， 并 取 绸 前 15 行 

In [355]: sorted by_diff[::-1][:15] 

Out[355] : 

gender F M 
diff 

title 

Good, The Bad and The Ugly, The (1966) 3.494949 4.221300 
0.726351 


Kentucky Fried Movie, The (1977 ) 2.878788 3.555147 
0.676359 
Dumb & Dumber (1994 ) 2.697987 3.336595 
0.638608 
Longest Day, The (1962 ) 3.411765 4.031447 
0.619682 
cable Guy, The (1996) 2.250000 2.863787 
0.613787 
Evil Dead II (Dead By Dawn) (1987) 3.297297 3.909283 
0.611985 
Hidden, The (1987 ) 3.137931 3.745098 
0.607167 
Rocky III (1982 ) 2.361702 2.943503 
0.581801 
Caddyshack (1980) 3.396135 3.969737 
0.573602 
For a Few Dollars More (1965) 3.409091 3.953795 
0.544704 
Porky's (1981) 2.296875 2.836364 
0.539489 
Animal House (1978) 3.628906 4.167192 
0.538286 
Exorcist, The (1973 ) 3.537634 4.067239 


0.529605 


Fright Night (1985) 2.973684 3.500000 
0.526316 


Barb Wire (1996) 1.585366 2.100386 
0.515020 


如 有 果 只 是 想 要 找 出 分 收 最 大 的 电影 (不 考虑 
别 因 素 ) ， 则 可 以 计算 得 分 数据 的 方差 或 标准 


| 


atk EE 


民 据 电 及 名 标 分 组 有 的 伍 分 和 ] 标 惟 亚 
In [356]: rating_std_by_title = data.groupby('title') 
['rating'].std() 


# 根据 active_titles 进 行 过 滤 
In [357]: rating_std_by_title = 
rating_std by_title.ix[active titles] 


# 根据 值 对 Series 进 行 降序 排列 
In [358]: rating_std_by_title.order(ascending=False)[:10] 


Out[358] : 

title 

Dumb & Dumber (1994) 1.321333 
Blair Witch Project, The (1999) 1.316368 
Natural Born Killers (1994) 1.307198 
Tank Girl (1995) 1.277695 
Rocky Horror Picture Show, The (1975) 1.260177 
Eyes Wide Shut (1999) 1.259624 
Evita (1996) 1.253631 
Billy Madison (1995) 1.249970 
Fear and Loathing in Las Vegas (1998) 1.246408 
Bicentennial Man (1999) 1.245533 


Name: rating 


可 能 你 已 经 注意 到 了 ， 电 影 分 类 是 以 紧 线 
(|) 分 隔 的 字符 串 形式 给 出 的 。 如 果 想 对 电影 分 
类 进行 分 析 的 话 ， 整 需要 先 将 其 转换 成 更 有 用 的 
形式 才 行 。 我 将 在 本 书后 续 章 万 中 讲 到 这 种 转换 
处 理 ， 到 时 还 会 再 用 到 这 个 数据 。 


1880-2010 年 间 人 全美 贤 儿 姓名 
美国 社会 保障 总 团 


Wickham (许多 流行 R 包 的 作者 ) 经 党 


(SSA) 提供 了 一 份 从 
1880 年 到 2010 年 的 竖 儿 名 字 频 率 数 据 。Hadley 


巴 
巴 


来 滥 示 R 的 数据 处 理 功 能 。 


In [4]: names.head(10) 
Out[4] : 

name 

Mary 
Anna 

Emma 
Elizabeth 
Minnie 
Margaret 
Ida 
Alice 
Bertha 
Sarah 


人 
x 


‘(OOORRPOONPO 
TITTTTTTTTTW 


births 
7065 
2604 
2003 
1939 
1746 
1578 
1472 
1414 
1320 
1288 


year 
1880 
1880 
1880 
1880 
1880 
1880 
1880 
1880 
1880 
1880 


用 这 份 数 据 


你 可 以 用 这 个 数据 集 做 很 多 事 ， 例 如 : 
-计算 指定 名 字 (可 以 是 你 目 己 的 ， 也 可 以 是 


别人 的 ) 的 年 度 比例 。 


计算 某 个 名 字 的 相对 排名 。 


计算 各 年 度 最 流行 的 名 字 ， 以 及 增长 或 减少 


最 快 的 名 字 。 


洱 


` 忆 体 多 


分 析 名 字 趋 势 ， 元 音 、 辅 音 、 长 
样 性 、 拼 写 变化 、 首 尾 字母 等 。 


分 析 外 源 性 趋势 ， 圣 经 中 的 名 字 、 名 人 、 人 
口 结构 变化 寺 。 


利用 前 面 介绍 过 的 那些 工具 ， 这 些 分 析 工 作 
都 能 很 轻松 地 完成 ， 因 此 我 会 尽量 多 讲 一 些 。 我 
建议 你 下 载 这 些 数据 并 亲 目 试 一 试 。 如 末 你 在 这 
0 
听 上 一 听 。 


到 编写 本 书 时 为 止 ， 美国 社 会 保障 总 贰 将 该 
数据 库 按 年 度 制 成 了 多 个 数据 文件 ， 其 中 给 出 了 
每 个 性 别 /名 字 组 合 的 出 生 忌 数 。 这 些 文 件 的 原 妨 
档案 可 以 在 这 里 获取 :下 6 


http://www.ssa.gov/oact/babynames/limits.html? 


如 采 你 在 阅读 本 书 的 时 候 这 个 页 面 已 经 不 见 
了 ， 也 可 以 用 搜索 引擎 找 找 。 下 载 "National 
data" 文 件 names.zip， 解 压 后 的 目录 中 舍 有 一 组 文 
件 (如 yob1880.txt) 。 我 用 UNIX 的 head 命 令 查 看 
了 其 中 一 个 文件 的 前 10 行 (在 Windows 上 ， 你 可 以 
用 more 命 令 ， 或 直接 在 文本 编辑 器 中 打开 ) : 


In [367]: !head -n 10 names/yob1880.txt 
Mary,F,7065 


Anna, F, 2604 
Emma, F, 2003 
Elizabeth,F, 1939 
Minnie,F,1746 
Margaret,F,1578 
Ida,F,1472 
Alice,F,1414 
Bertha,F,1320 
Sarah,F,1288 


由 于 这 是 一 个 非常 标准 的 以 逗 配 阳 开 的 格 
式 ， 所 以 可 以 用 pandas.read_csv 将 其 加 载 到 
DataFrame 中 : 


In [368]: import pandas as pd 


In [369]: names1880 = pd.read_csv('names/yob1880.txt', names= 


['name', 'sex', 'births']) 


In [370]: names1880 

Out[370]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 2000 entries, © to 1999 
Data columns: 

name 2000 non-null values 

sex 2000 non-null values 
births 2000 non-null values 
dtypes: int64(1), object(2) 


这 些 文件 中 仪 舍 有 当年 出 现 超过 5 次 的 名 字 。 
为 了 简 音 起见， 我们 可 以 用 births 列 的 sex 分 组 小 计 


表示 该 年 度 的 births 总 计 : 


In [371]: names1880.groupby('sex').births.sum() 


Out[371] : 
SexX 

F 90993 
M 110493 


Name: births 


由 于 该 数据 集 近年 度 被 分 隔 成 了 多 个 文件 ， 
所 以 第 一 件 事 情 驶 是 要 将 所 有 数据 都 组 竣 到 一 个 
DataFrame 里 面 ， 并 加 上 一 个 year 字 段 。 使 用 
pandas.concat 即 可 达到 这 个 目的 : 


# 2010 有 起 日 有 取 后 一 个 朋 鸡 统 丁 年 友 
years = range(1880, 2011) 


pieces = [|] 
columns = ['name', 'sex', 'births'] 


for year in years: 
path = 'names/yob%d.txt' % year 
frame = pd.read csv(path, names=columns) 


frame['year'|] = year 
pieces.append(frame) 


# 将 所 有 数据 整合 到 单个 DataFrame 中 


names = pd.concat(pieces, ignore_ index=True) 


这 里 需要 注意 几 件 事 情 。 第 一 ，concat 默 认 是 
按 行将 多 个 DataFrame 组 合 到 一 起 的 ， 第 二 ， 必 须 
指定 ignore_index=True， 因 为 我 们 不 希望 体 留 
read_csv 所 返回 的 原始 行 号 。 现 在 我 们 得 到 了 一 个 
非常 大 的 DataFrame， 它 含有 全 部 的 名 字数 据 。 


现在 names 这 个 DataFrame 对 象 看 上 去 应 该 是 
JE 


In [373]: names 

Out[373] : 

<class 'pandas .core.frame,DataFrame '> 
Int64Index: 1690784 entries，0 to 1690783 
Data columns: 


name 1690784 non-null values 
SexX 1690784 non-null values 
births 1690784 non-null values 
year 1690784 non-null values 
dtypes: int64(2), object(2) 


有 了 这 些 效 据 之 后 ， 我 们 吏 可 以 利用 groupby 
或 pivot_table 在 year 和 sex 级 别 上 对 其 进行 聚合 了 ， 


如 图 2-4 所 示 : 


In [374]: total_births = names.pivot_table('births', 
rowSs= 'year '， 

te cols='sex', 
aggfunc=sum) 


In [375]: total births.tail() 


Out[375]: 


sex 
year 
2006 
2007 
2008 
2009 
2010 


F 


1896468 
1916888 
1883645 
1827643 
1759010 


M 


2050234 
2069242 
2032310 
1973359 
1898382 


In [376]: total births.plot(title='Total births by sex and 


year') 


下 面 我 们 来 插入 一 个 prop 列 ， 用 于 存放 指定 
名 字 的 贤 儿 数 相对 于 总 出 生 数 的 比例 。prop 值 为 
0.02 表 示 每 100 名 遇 儿 中 有 2 名 取 了 当前 这 个 名 字 。 
因此 ， 我 们 先 按 year 和 sex 分 组 ， 然 后 再 将 新 列 加 


下 各 个 分 表 目 : 


def add_prop(group ) : 


# 整数 除法 
births = group.births.astype(float) 


会 向 下 圆 整 


group['prop'] = births / births.sum() 
return group 
names = names.groupby(['year', 'sex']).apply(add_prop) 


注意 : 由 于 births 是 整数 ， 所 以 我 们 在 计算 分 
式 时 必须 将 分 子 或 分 母 转换 成 浮 点 数 (除非 你 正 
在 使 用 Python 3! ) 。 


Total births by sex and year 
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2000000 上 
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图 2-4: 按 性 别 和 年 度 统计 的 总 出 生效 
现在 ， 完 整 的 数据 集束 有 了 下 面 这 些 列 : 


In [378]: names 

Out[378]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1690784 entries, © to 1690783 
Data columns: 


name 1690784 non-null values 
sex 1690784 non-null values 
births 1690784 non-null values 
year 1690784 non-null values 
prop 1690784 non-null values 


dtypes: float64(1), int64(2), object(2) 


在 执 \ 了 这 样 HJ9 分 组 处 理 时 ， 一 般 都 应 该 做 一 
ee 往 检 查 ， 比 如 验证 所 有 分 组 的 prop 的 总 和 

否 为 1。 由 于 这 十 一 个 浮 扩 型 数据 ， 所 以 我 们 应 
该 用 hp. 0 ] 9 /组 局 \ 计 值 是 否 足 够 近 
似 于 (可 能 不 会 精确 等 于 ) 1 


In [379]: np.allclose(names.groupby(['year', 
'sex']).prop.sum(), 1) 
Out[379]: True 


这 样 束 算 完 活 了 。 为 了 便于 实现 更 进一步 的 
分 析 ， 我 需 i 要 取出 该 将 据 四 一 个 于 集 每 对 
sex/year 组 合 的 前 1000 个 名 字 。 这 又 是 一 个 分 组 操 
作 : 


def get_ top1000(group): 
return group.sort_index(by='births', ascending=False) 
[ :1000] 


grouped = names.groupby(['year', 'sex'|]) 
top1000 = grouped.apply(get_top1000) 


如 末 你 喜欢 DIY 的 话 ， 也 可 以 这 样 : 


pieces = [|] 

for year, group in names.groupby(['year', 'sex']): 
pieces,append(group.sort_index(by='births '， 

scending=False)[:1000]) 

top1000 = pd.concat(pieces, ignore_index=True) 


现在 的 结 来 数据 集束 小 多 了 : 


In [382]: top1000 
out[382] : 


<class 'pandas .core.frame,DataFrame '> 
Int64Index: 261877 entries, © to 261876 
Data columns: 


name 261877 non-null values 
Sex 261877 non-null values 
births 261877 non-null values 
year 261877 non-null values 
prop 261877 non-null values 


dtypes: float64(1), int64(2), object(2) 


授 下 来 的 数据 分 析 工 作 束 计 对 这 个 top1000 数 
据 集 了 。 


分 析 命 名 趋势 


有 了 完整 的 数据 集 和 刚才 生成 的 top1000 数 据 
集 ， 我 们 就 可 以 开始 分 析 各 种 命名 趋势 了 。 目 先 
将 前 1000 个 名 字 分 为 男女 两 个 部 分 : 


In [383]: boys = top1000[top1000.Sex == 'M'] 


In [384]: girls = top1000[top1000.sex == 'F'] 


这 是 两 个 简单 的 时 间 序 列 ， 只 和 需 稍 作 上 整理 即 
可 绘制 出 相应 的 图 表 (比如 每 年 叫做 John 和 Mary 
的 婴儿 数 ) 。 我 们 先生 成 一 张 按 year 和 name 统 计 
的 总 出 生 数 透视 表 : 

In [385]: total_births = top1000.plivot_table( "births ' ， 


rows='year', cols='name', 
ee aggfunc=sunm) 


现在 ， 我 们 用 DataFrame 的 plot 方 法 绘制 几 个 
名 字 的 曲线 图 : 
In [386]: total births 
Out[386]: 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 131 entries, 1880 to 2010 


Columns: 6865 entries, Aaden to Zuri 
dtypes: float64(6865) 


In [387]: subset = total births[['John', 'Harry', 'Mary', 
'Marilyn']] 


In [388]: subset.plot(subplots=True, figsize=(12, 10), 
grid=False, 
No title="Number of births per year") 


最 终结 果 如 图 2-5 所 示 。 从 图 中 可 以 看 出 ， 这 
几 个 名 字 在 美国 人 民 的 心目 中 已 经 风光 不 再 了 。 
但 事实 并 非 如 此 简单 ， 我 们 在 下 一 节 中 束 能 知道 
是 怎么 一 回 事 了 。 


80000 


图 2-5: 儿 个 男孩 和 廊 护 名 字 随 时 间 变 化 的 使 用 数 


评估 命名 多 样 性 的 增长 


图 2-5 所 反映 的 降低 情况 可 能 意味 着 父母 愿意 
给 小 孩 起 常见 的 名 字 越 来 越 少 。 这 个 假设 可 以 从 
数据 中 得 到 验证 。 一 个 办 法 是 计算 最 流行 的 1000 
Oe 
, 


In [390]: table = top1000.pivot_ table('prop', rows='year', 
i cols='sex', 
aggfunc=sum) 


In [391]: table.plot(title='Sum of table1000.prop by year and 
SeX ' ， 


yticks=np.linspace(0, 1.2, 13), 
xticks= a 2020, 10)) 


结果 如 图 2-6 所 示 。 从 图 中 可 以 看 出 ， 名 字 的 
多 样 性 确实 出 现 了 增长 (前 1000 项 的 比例 降 
低 ) 。 男 一 个 办 法 是 计算 占 总 出 生 人 数 前 50% 的 
不 同名 字 的 数量 ， 这 个 数字 不 太 好 计算 。 我 们 只 
考虑 2010 年 男孩 的 名 字 : 


In [392]: df = boys[boys.year == 2010| 


In [393]: df 

Out[393]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000 entries, 260877 to 261876 
Data columns: 


name 1000 non-null values 
sex 1000 non-null values 
births 1000 non-null values 
year 1000 non-null values 
prop 1000 non-null values 


dtypes: float64(1), int64(2), object(2) 


Sum of table1000.prop by year and sex 


O0880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 
year 


/| 


如 2-6: 分 性 别 统 计 的 前 1000 个 名 字 在 总 出 生 人 数 
中 的 比例 


在 对 prop 降 序 排列 之 后 ， 我 们 想 知 道 前 面 多 
少 个 名 字 的 人 数 加 起 来 才 够 50%。 虽 然 编写 一 个 
for 循 环 确 实 也 能 达到 目的 ， 但 NumPy 有 一 种 更 聪 
明 的 矢量 方式 。 爷 计算 prop 的 紧 计 和 cumsum， 然 
后 再 通过 searchsorted 方 法 找 出 0.5 应 该 被 插入 在 哪 
个 位 置 才能 保证 不 破坏 顺序 : 


In [394]: prop_cumsum = df.sort_index(by='prop', 
ascending=False).prop.cumsum() 


In [395]: prop_cumsum[ :10] 


Out[395] : 

260877 0.011523 
260878 0.020934 
260879 0.029959 
260880 0.038930 
260881 0.047817 
260882 0.056579 
260883 0.065155 
260884 0.073414 
260885 0.081528 
260886 0.089621 


In [396]: prop_cumsum.searchsorted(0.5) 
Out[396]: 116 


由 于 数组 索引 是 从 0 开始 的 ， 因 此 我 们 要 给 这 
个 结果 加 1， 即 最 终结 果 为 117。 拿 1900 年 的 数据 
来 做 个 比较 ， 这 个 数字 要 小 得 多 : 


In [397]: df = boys[boys.year == 1900] 
In [398]: in1900 = df.sort_index(by='prop '， 


ascending=False).prop.cumsum() 
In [399]: in1900.searchsorted(0.5) + 1 
Out[399]: 25 


现在 束 可 以 对 所 有 year/sex 组 合 执 行 这 个 计算 
了 。 按 这 两 个 字段 进行 groupby 处 理 ， 然 后 用 一 个 
函数 计算 各 分 组 的 这 个 便 : 


def get_duantile_count(group，q=0.5): 
group = group.sort_index(by='prop', ascending=False) 
return group.prop.cumsum().searchsorted(q) + 1 


diversity = top1000.groupby(['year', 
'sex']).apply(get_quantile_count) 
diversity = diversity.unstack('sex') 


现在 ，diversity 这 个 DataFrame 拥 有 两 个 时 间 
序列 〈 每 个 性 别 各 一 个 ， 按 年 度 索 引 ) 。 通 过 
IPython， 你 可 以 得 看 其 内 容 ， 还 可 以 像 之 前 那样 
绘制 图 表 〈 如 图 2-7 所 示 ) 


In [401]: diversity.head() 


Out[401] : 
SexX F M 
year 


1880 38 14 
1881 38 14 
1882 38 15 
1883 39 15 
1884 39 16 


In [402]: diversity.plot(title="Number of popular names in 
top 50%") 


图 2-7: 按 年 度 统计 的 密度 表 


从 图 中 可 以 看 出 ， 女 骇 名 字 的 多 样 性 已 十 比 
级 孩 的 高 ， 而 且 还 在 变 得 越 来 越 高 。 访 着 们 可 以 
目 己 分 析 一 下 具体 是 什么 在 驱动 这 个 多 样 性 ( 比 
如 拼写 形式 的 变化 ) 


“最 后 一 个 字母 "的 变革 


2007 年 ， 一 名 竖 儿 姓名 俩 究 人 员 Laura 
Wattenberg 在 她 目 己 的 网 站 上 指出 
(http://www.babynamewizard.com) : 近 百 年 来 ， 
男孩 名 字 在 最 后 一 个 字母 上 的 分 布 发 生 了 显 敌 的 
变化 。 为 了 了 解 具体 的 情况 ， 我 目 先 将 全 部 出 生 
数据 在 年 度 、 性 别 以 及 末 字 母 上 进行 了 案 合 : 


# 从 name 列 取 册 最 后 一 个 字 配 

get_last_letter = lambda x: x[-1] 

last_letters = names.name.map(get_last_letter) 

last_letters.name = 'last_letter' 

table = names.pivot_table('births', rows=last_letters, 
cols=['sex', 'year'l], 


aggfunc=sum) 
然后 ， 我 先 出 具有 一 定 代 表 性 的 三 年 ， 并 输 
出 前 面 儿 行 : 


In [404]: subtable = table.reindex(columns=[1910, 1960, 
2010], level='year') 


In [405]: subtable.head() 


Out[405]: 
Sex F M 
year 1910 1960 2010 1910 1960 2010 


Jast letter 


108376 691247 670605 977 5204 28438 
NaN 694 450 411 3912 38859 
5 49 946 482 15476 23125 


6750 3729 2607 22111 262112 44398 
133569 435013 313833 28655 178823 129012 


接 下 来 我 们 需要 按 总 出 生 数 对 该 表 进 行规 范 
化 处 理 ， 以 便 计算 出 各 性 别 各 末 字 母 占 总 出 生 人 
数 的 比例 : 


In [406]: subtable.sum() 


DOoONoTYy 


Out[406]: 
sex year 
F 1910 396416 


1960 2022062 

2010 1759010 
M 1910 194198 

1960 2132588 

2010 1898382 
In [407]: letter_prop = subtable / 
subtable. sum().astype(float) 


有 了 这 个 字 苹 比例 数据 之 后 ， 整 可 以 生成 一 
张 各 年 度 各 性 别 的 条 形 图 了 ， 如 图 2-8 所 示 : 


import matplotlib.pyplot as pit 

fig, axes = plt.subplots(2, 1, figsize=(10, 8)) 
letter_prop['M'].plot(kind='bar', rot=0, ax=axes[0], 
title='Male') 

letter_prop['F'].plot(kind='bar', rot=0, ax=axes[1], 
title='Female', legend=False) 


Male 


图 2-8: 男 骇 女 护 名 子 中 各 个 林子 苹 的 比例 


从 图 2-8 中 可 以 看 出 ， 从 20 世 纪 60 年 代 开 始 ， 
以 字母 "n" 结 尾 的 男 核 名 字 出 现 了 显著 的 增长 。 回 
到 之 前 创建 的 那个 完整 表 ， 按 年 度 和 性 别 对 其 进 
行规 范 化 处 理 ， 并 在 男孩 名 字 中 选取 几 个 字母 ， 
最 后 进行 转 置 以 便 将 各 个 列 做 成 一 个 时 间 序 列 : 


In [410]: letter -prop = = table / table. 1 DR 
In [411]: dny_ts = letter_prop.ix[['d', 'n', 'y'], 'M'].T 


In [412]: dny_ts.head() 
Out[412]: 

d n y 
year 
1880 0.083055 0.153213 0.075760 
1881 0.083247 0.153214 0.077451 
1882 0.085340 0.149560 0.077537 
1883 0.084066 0.151646 0.079144 
1884 0.086120 0.149915 0.080405 


有 了 这 个 时 间 序 列 的 DataFrame 之 后 ， 束 可 以 
0 出 一 张 趋势 图 了 (如 图 2-9 所 


In [414]: dny_ts.plot() 


a 
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year 


图 2 0 人 数 
比 斧 


变 成 女孩 名 字 的 男孩 名 字 (以 及 相反 的 情况 ) 


为 一 个 有 趣 的 趋势 是 ， 早 年 流行 于 男孩 的 名 
字 近 年 来 “变性 了 ”， 例 如 Lesley 或 Leslie。 回 到 
top1000 数 据 集 ， 找 出 其 中 以 "lesl" 开 头 的 一 组 名 
In [415]: all names = top1000.name.unique() 


In [416]: mask = np.array(['lesl' in x.lower() for x in 
al]_names ] ) 


In [417]: lesley_ like = all names[mask] 
In [418]: lesley_like 


Out[418]: array([Leslie, Lesley, Leslee, Lesli, Leslyl], 
dtype=object) 


然后 利用 这 个 结 末 过渡 其 他 的 名 子 ， 并 按 名 
字 分 组 计算 出 生 数 以 查看 相对 频率 : 


In [419]: filtered = top1000[top1000.name.isin(lesley_like)] 


In [420]: filtered.groupby('name').births.sum() 


Out[420]: 

name 

Leslee 1082 
Lesley 35022 
Lesli 929 
Leslie 370429 
Lesly 10067 


Name: births 


接 下 来 ， 我 们 按 性 别 和 年 度 进行 案 合 ， 并 按 
年 度 进 行规 范 化 处 理 : 


COJLS= 'Sex'， 
aggfunc= ' sum ' ) 


In [422]: table = table.div(table.sum(1), axis=0) 
In [423]: table.tail() 


Out[423] : 
sex F M 
year 

2006 1 NaN 
2007 1 NaN 
2008 1 NaN 
2009 1 NaN 
2010 1 NaN 


现在 ， 我 们 就 可 以 轻松 绘制 一 张 分 性 别 的 年 
度 曲 线 图 了 (如 图 2-10 所 示 ) 


In [425]: table.plot(style={"M': kK-', FE': wk--'y) 


0 多 50 1900 1920 1940 1960 1980 2000 2020 
year 


图 2-10: 各 年 度 使 用 "Lesley 型 ”名 字 的 男女 比例 
译注 6: 如 下 诈 接 可 能 不 可 用 ， 读 者 可 直接 在 本 书 
的 github 上 下 载 。 


人 小结 及 展开 


本 章 中 的 这 些 例子 都 非 营 简单 ， 但 它们 可 以 
让 你 大 致 了 解 后 续 章 世 的 相关 内 容 。 本 书 天 注 的 
焦点 十 工 具 而 不 是 那些 复杂 精妙 的 分 析 廊 法 。 竺 
握 本 书 所 介绍 的 技术 将 使 你 能 够 立马 开展 目 己 的 
分 析 工 作 (假设 你 已 经 知道 要 做 什么 了 ) 。 


第 3 前 ”IPython: 一 种 交互 式 计 算 和 
开发 环境 


为 无 为， 事 无 事 ， 味 无 味 。 大 小 多 少 * 报 和 
以 德 。 


/DA 


图 难于 其 易 ， 为 大 于 其 细 ; 
天 下 难事 ， 必 作 于 易 ， 天 下 大 事 ， 必 作 于 
田 。 


一 一 老子 


人 人 们 经 党 问 我 , “你 的 Python 开发 环境 是 什 
么 ? ”我 的 回答 基本 永远 都 是 “IPython 外 加 一 个 文 
本 编辑 硕 ”。 如 末 想 要 得 到 更 加 高 级 的 图 形 化 工具 
和 代码 目 动 完成 功能 ， 你 也 可 以 考虑 用 一 款 集成 
开发 环境 (IDE) 来 代替 文本 编辑 器 。 即 便 如 
此 ， 我 仍然 强烈 建议 你 将 IPython 作 为 工作 中 的 重 
要 工具 。 有 的 IDE 其 至 本 身 束 集成 了 IPython， 所 
以 说 两 全 其 美的 办 法 还 是 有 的 。 


2001 年 ，Fernando Pkrez 为 了 得 到 一 个 更 为 高 
效 的 交互 式 Python 解 释 磺 而 局 动 了 一 个 业余 项 
目 ， 于 是 IPython 项 目 诞 生 了 。 在 接 下 来 的 11 年 


中 ， 它 逐渐 被 公认 为 现代 科学 计算 中 最 重要 的 
Python 工具 之 一 。IPython 本 里 并 没有 提供 任何 的 
计算 或 数据 分 析 功 能 ， 其 设计 目的 是 在 交互 式 计 
算 和 软件 开发 这 两 个 方面 最 大 化 地 提高 生产 力 。 
它 鼓 励 一 种 “执行 一 探索 ”(execute explore) 的 工 
作 模式 ， 而 不 是 许多 其 他 编程 语言 那 种 “编辑 一 编 
译 一 运行 ” (edit-complie-run) 的 传统 工作 模式 。 
此 外 ， 它 跟 操作 系统 shell 和 文件 系统 之 间 也 有 着 
非常 紧密 的 集成 。 由 于 大 部 分 的 数据 分 析 代 码 都 
含有 探索 式 操作 〈 试 误 法 和 迭代 法 ) ， 因 此 
IPython (在 绝 大 多 数 情况 下 ) 将 有 助 于 提高 你 的 
工作 效率 。 


当然 了 ，IPython 项 目 现在 已 经 不 再 只 是 一 个 
加 强 版 的 交互 式 Python shell， 它 还 有 一 个 可 以 直 
接 进 行 绘图 操作 的 GUI 控制 人 台 、 一 个 基于 Web 的 
交互 式 亏 记 本 ， 以 及 一 个 轻 量 级 的 快速 并 行 计算 
引 警 。 此 外 ， 跟 许多 其 他 专 为 程序 员 设 计 (以 及 
由 程序 员 设 计 ) 的 工具 一 样 ， 它 也 是 高 度 可 定制 
的 。 我 将 在 本 划 最 后 介绍 一 些 这 样 的 功能 。 


由 于 IPython 的 核心 功能 是 交互 ， 所 以 在 没有 
动态 控制 台 的 情况 下 ， 本 划 中 的 某 些 功 能 很 难说 
得 清楚 。 如 果 这 是 你 第 一 次 学 习 IPython， 那 我 建 
议 你 照 厦 例子 实际 动手 试 坛 ， 感 觉 一 下 到 撒 是 怎 
么 一 回 事 。 跟 所 有 由 键盘 张 动 的 控制 全 环境 一 


样 ， 锻 炼 对 第 用 命令 的 肌肉 记忆 征 学 习 曲 线 中 不 
可 或 忠 的 一 部 分 。 


注意 : 在 第 一 次 阅读 时 ， 本 章 的 许多 内 容 都 
可 跳 过 不 看 ， 因 为 它们 对 理解 本 书 其 余 的 内 容 没 
有 影响 。 本 章 的 目的 是 让 你 对 IPython 所 提供 的 功 
能 有 一 个 全 面 的 了 解 。 


IPython 基 础 


你 可 以 通过 命令 行 局 劲 IPython， 殉 像 局 动 剑 
准 Python 解 释 器 那样 ， 只 是 把 命令 改 为 ipython 实 
了 : 


$ ipython 

Python 2.7.2 (default, May 27 2012, 21:26:12) 
Type "copyright", "credits" or "license" for more 
information. 


IPython 0.12 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -> Python's own help systenm. 

object? -> Details about 'object', use 'object??' for 
extra details. 


In [1]: a=5 


In [2]: a 
Out[2]: 5 


你 可 以 在 这 里 执行 任何 Python 语句 ， 只 需 将 
其 输入 然后 按 下 回 车 键 就 行 了 。 如 有 果 只 是 在 
IPython 中 输入 了 一 个 变量 ,那么 它 将 会 吕 示 出 该 
对 象 的 一 个 字符 串 表 示 : 守 全 1 


In[541]: import numpy as np 
In[542]: data = {i : randn() for i in range(7)}? 
In [543]: data 


Out[543]: 
{0: 0.5580886709219381, 


0.25701015249982423， 
0.8876099192477288， 
1.0210657329557034, 
-0.21799201419817044, 
1.1388001234975833,，, 
-0.5209890532927175} 


许多 Python 对 和 象 部 人 馈 格 式 化 为 可 读 性 更 好 
(或 者 说 排版 更 好 ) 的 形式 ， 这 跟 print 的 普通 输 
出 形式 有 看 显 闭 区别 。 如 末 在 标准 Python 解 释 帮 
J 其 可 读 性 整 没 那么 好 


OO 人 上 wm 


>>> from numpy.random import randn 

>>> data = {i : randn() for i in range(7)} 

>>> print data 

{0: -1.5948255432744511, 1: 0.10569006472787983,， 2: 
1.972367135977295,，, 

3: ©0.15455217573074576, 4: -0.24058577449429575, 5: 
-1.2904897053651216, 

6: 0.3308507317325902} 


IPython 还 可 以 方便 地 执行 任意 代码 块 (通过 
少量 优雅 的 复制 粘贴 操作 ) 和 整个 Python 脚 本 。 
和 后 整 会 对 该 功能 进行 介绍 。 


Tab 键 目 动 完成 


从 表面 上 看 ，IPython 束 像 是 一 个 化 了 淡妆 的 
交互 式 Python 解 释 嚣 。 数 学 软件 (Mathematica) 
用 户 可 能 会 对 标号 式 鸭 输入 输出 提示 人 符 眼 唤 。Tab 
键 目 动 完成 功能 是 对 标准 Python shell 的 主要 改进 


之 一 ， 大 部 分 交互 式 数据 分 析 环 境 都 有 这 个 功 
能 。 在 shell 中 输入 表达 式 时 ， 只 要 按 下 Tab 键 ， 当 
前 命名 空间 中 任何 与 已 输入 的 字符 串 相 匹配 的 变 
量 (对 象 、 函 数 等 ) 就 会 被 找 出 来 : 


In [1]: an_apple = 27 


In [2]: an_example = 42 


In [3]:an<Tab>” 2? 
an_apple and an_example any 于 


在 这 个 例子 中 可 以 看 到 ，IPython 将 我 定义 的 

两 个 变量 都 显示 出 来 了 ， 此 外 还 显示 了 Python 天 

键 字 and 和 内 置 印 数 any。 当 然 ， 你 也 可 以 在 任何 

TT 以 便 目 动 完成 方法 和 属性 
4 且 人 人 : 


In [3]: b = [1, 2, 3] 


3 


In [4]: b.<Tab> 
b.append b.extend b.insert b.remove b.sort 
b.count b.index b ,pop b .reverse 


还 可 以 应 用 在 模块 上 : 


In [1]: import datetime 


In [2]: datetime.<Tab> 


datet1iIme,.MAXYEAR datetime.datetime 
datetime.timedelta 
datetime .MINYEAR datetime.datetime CAPI 


datetime.tzinfo 
datetime.date datetime.time 


注意 : ”IPython 默 认 会 隐藏 那些 以 下 划 线 开头 
的 方法 和 属性 ， 比 如 魔术 方法 (magic method ) 
以 及 内 部 的 “私有 ”方法 和 属性 ， 其 目的 是 名 人 鲍 在 
屏幕 上 显示 一 堆 乱 七 八 糟 的 东西 〈 也 为 了 避免 把 
Python 渐 人 搞 晕 ! ) 。 其 实 这 些 也 是 可 以 通过 Tab 
键 目 动 完 成 的 ， 只 是 你 得 先 输入 一 个 下 划 线 才 
行 。 如 有 果 你 吏 是 辟 欢 能 总 是 看 到 这 些 方 法 ， 有 直接 
修改 IPython 配 置 文 件 中 的 相 天 设置 束 可 以 了 。 


Tab 刍 日 动 完成 功能 不 只 可 以 用 于 搜索 命名 空 
间 和 目 动 完成 对 象 或 模块 属性 。 当 你 输入 任何 看 
上 去 像 是 文件 路 径 的 东西 时 (即使 症 在 一 个 
Python 字符 串 中 ) ， 按 下 Tab 键 即 可 找 出 电脑 文件 
系统 中 与 之 匹配 的 东西 : 


In [3]: book_scripts/<Tab> 4 
book_scripts/cprof_example.py 
book_scripts/ipython_script_test.py 
book_scripts/ipython_bug.py 
book_scripts/prof_mod.py 


In [3]: path = 'book_scripts/<Tab> 
book_scripts/cprof_example.py 
book_scripts/ipython_script_test.py 
book_scripts/ipython_bug.py 
book_scripts/prof_mod.py 


如 果 再 结合 %run 命 令 (参见 后 面 内 容 ) ， 访 
功能 将 显著 减少 你 敲 键盘 的 次 数 。 


Tab 键 目 动 完成 功能 还 可 用 于 丙 数 天 键 字 参数 
(包括 等 号 (=) ! ) 。 


译注 1: 从 输入 输出 提示 符 来 看 ， 作 者 在 这 两 段 之 
间 做 了 不 少 事情 ， 所 以 如 采 出 现 randn 找 不 到 的 情 
况 ， 请 移 执 行 from numpy.random import randn。 
译注 2: 后 面 的 <Tab> 只 是 一 个 按键 说 明 而 已 ， 不 
用 输入 。 顺 便 说 明 一 下 ， 按 完 Tab 键 之 后 ， 已 输入 
的 内 容 会 在 下 一 行 重 复出 现 ， 行 号 也 是 一 样 的 ， 
直接 拉 看 往 下 输入 束 行 了 。 

译注 3: 根据 软件 版 本 、 配 置 以 及 当前 上 下 文 的 不 
同 ， 这 里 得 到 的 结果 可 能 会 比 书 上 的 多 。 

译注 4: 注意 ， 要 使 用 正 斜 村 (/) ， 不 然 认 不 出 
来 。 上 此外， 文件 夹 或 文件 名 中 间 不 能 有 空格 ， 不 
然 也 无 法 正常 继续 操作 。 


变量 的 前 面 或 后 面 加 上 一 个 问号 〈?) 融 可 
以 将 有 关 该 对 象 的 一 一 些 通用 信息 显示 出 米 : 


In [545]: 57 


Type: list 
String Form:[1, 2, 3] 
Length : 

Docstring: 


list() -> new empty list 
list(iterable) -> new list initialized from iterable's items 


这 就 叫做 对 象 内 省 (object introspection) “于 
" 如 条 该 对 象 是 一 个 印 数 或 实例 方法 ， 则 其 
docstring (如 果 有 的 话 ) 也 会 被 显示 出 来 : 


def add_numbers(a，b): 
Add two numbers together 
Returns 


the_sum : type of arguments 


return a + b 


然后 可 以 利用 ?来 显示 这 段 docstring: 


In [547]: add_numbers? 


Type : function 
String Form:<function add_numbers at Ox5fad848> 
File: book_scripts/<ipython-input-546-5473012eeb65> 


Definition: add numbers(a, b) 


Docstring: 
Add two numbers together 
Returns 


the_sum : type of arguments 


使 用 ?? 还 将 显示 出 该 函数 的 源 代码 (如 采 可 
能 的 话 ) : 


In [548]: add_numbers?? 
Type : function 
String Form:<function add_numbers at Ox5fad848> 
File: book_scripts/<ipython-input-546-5473012eeb65> 
Definition: add numbers(a, b) 
Source: 
def add_ numbers(a, b): 
th 


Add two numbers together 
Returns 


the_sum : type of arguments 
tim 


return a + b 


?还 有 一 个 用 法 ， 即 搜索 IPython 命 名 空间 ， 类 
似 于 标准 UNIX 或 Windows 命 令 行 中 的 那 种 用 法 。 
一 些 字符 再 配 以 通配符 (*) 即 可 显示 出 所 有 与 该 
通配符 表达 式 相 匹配 的 名 称 。 例 如 ， 我 们 可 以 列 
出 NumPy 顶 级 命名 空间 中 含有 "load" 的 所 有 函数 : 


In [549]: np.*load*? 
np.1load 

np.1loads 

np.loadtxt 
np.pkgload 


全 人 
o6run 命 邻 


在 IPython 会 话 环 境 中 ， 所 有 文件 都 可 以 通 
过 %run 命 令 当 做 Python 程序 来 运行 。 假 设 你 在 
ipython_script_test.py 中 存放 了 一 段 商 单 的 脚本 ， 
如 下 所 示 : 


def f(x, y, Zz): 
return (x + y)/z 


result = f(a, b, c) 


只 要 将 文件 名 传 给 %run 束 可 以 运行 了 : 


In [550]: %run ipython_script test.py 6 


脚本 是 在 一 个 空 的 命名 空间 中 运行 的 (没有 

任何 import， 也 没有 定义 任何 其 他 的 变量 ) ， 所 以 
其 行为 应 该 跟 在 标准 命令 行 环境 (通过 python 
script.py 局 动 的 ) 中 执行 时 一 样 。 此 后 ， 该 文件 中 
所 定义 的 全 部 变量 (还 有 各 种 import、 函 数 和 全 局 
变量 ) 就 可 以 在 当前 IPython shell 中 访问 了 (除非 
发 生 了 异常 ) : 

In [551]: c 

out[551]: 7.5 


In [552]: result 
Out[552]: 1.4666666666666666 


如 果 Python 脚 本 需要 用 到 命令 行 参数 (通过 
sys.argv 访 问 ) ， 可 以 将 参数 放 到 文件 路 径 的 后 
面 ， 束 像 在 命令 行 上 执行 那样 。 


注意 ， 如 果 希 望 脚本 能 够 访问 在 交互 式 
Ipython 命 名 空间 ?中 定义 的 变量 ， 那 就 应 该 合 
用 %run i 而 个 是 %run。 


中 断 正 在 执行 的 代码 


任何 代码 在 执行 时 (无 论 是 通过 %run 执 行 的 
脚本 ， 还 是 长 时 间 运 行 的 命令 ) ， 只 要 按 下 "Ctrl- 
C"， 束 会 引发 一 个 KeyboardInterrupt。 除 一 些 非 常 
特殊 的 情况 之 外 ， 绝 大 部 分 Python 程序 都 将 立即 
停止 执行 。 


警 香 : 当 Python 代 人 码 已 经 调用 了 攻 个 已 编 详 
的 扩展 模块 时 ， 按 下 "Ctrl-C" 将 无 法 使 程序 立即 停 
止 执行 。 在 这 种 情况 下 ， 要 么 只 能 等 竺 Python 解 
释 器 重新 获得 控制 权 ， 要 么 只 能 通过 操作 系统 的 
任务 管理 器 强制 终止 Python 进程 (比较 极端 的 情 
况 下 才 需 要 这 么 干 ) 


执行 王 幅 板 中 的 代码 


在 IPython 中 执行 代码 的 最 何 蛙 方式 古 精 贴 配 
贴 板 中 的 代码 。 昌 然 这 种 做 法 很 粗糙 ， 但 在 实际 
工作 中 却 很 有 用 。 比 如 说 ， 在 开发 一 个 复杂 或 费 
时 的 应 用 程序 时 ， 你 可 能 布 望 能 一 段 一 段 地 执行 
脚本 ， 以 便 查 看 各 个 阶段 所 加 载 的 数据 以 及 产生 
的 结 末 。 义 比如 说 ， 你 在 网 上 找 了 一 段 合 用 的 代 
码 ， 但 叉 不 想 专 | ] 为 其 新 建 一 个 .py 文件 。 


多 数 情 况 下 ， 我 们 都 可 以 通过 "Ctrl-Shift-V" 将 
剪贴 板 中 的 代码 片段 粘贴 出 来 下 3。 注意 ， 这 并 
不 是 万 试 万 灵 的 ， 因 为 这 种 粘贴 方式 模拟 的 是 在 
IPython 中 丈 行 输入 代码 ， 换 行 符 会 被 处 理 为 
<return>。 也 就 古 膏 ， 如 果 你 所 烙 贴 的 是 一 段 缩 进 
代码 ， 且 其 中 有 一 个 至 行 ，IPython 束 会 认为 缩 进 
在 衬 行 那里 结束 了 。 当 执行 到 缩 进 块 后 面 那 行 代 
人 码 时 ， 束 会 引发 一 个 IndentationError°。 例 如 下 面 这 
段 代 三: 


和 直接 条 幅 古 不 行 的 : 


In [1]: x=5 


In [2]:y=7 


In [3]: if x > 5: 
了 x += 1 


In [4]: y=8 
IndentationError: unexpected indent 


If you want to paste code into IPython, try the %paste and 
%cpaste magic functions. 


正如 销 谍 提示 信息 所 说 的 那样 ， 我 们 应 该 使 
用 %paste 和 %cpaste 这 两 个 魔术 函数 。%paste 可 以 
承载 剪贴 板 中 的 一 切 文本 “9， 并 在 shell 中 以 整 
体形 式 执行 站 入 10: 


In [6]: %paste 


X = 5 

y = 7 

1IfXx>5: 
X += 1 
y= 8 


## -- End pasted text -- 


警告 根据 你 的 系统 平台 以 及 Python 的 安装 
情况 ，%paste 可 能 会 不 起 作用 。EPDFree (在 第 1 
章 中 介绍 过 ) 等 打包 发 布 的 版 本 应 该 没有 问题 。 


%cpaste 跟 %paste 差 不 多 二 11， 只 不 过 它 多 出 
了 一 个 用 于 炸 贴 代码 的 特殊 提示 符 而 已 : 


In [7]: %cpaste 

Pasting code; enter '--' alone on the line to stop or Use 
Ctrl-D. 

:X=5 

:y=7 


对 于 9%cpaste 块 ， 在 最 终 执 行 之 前 ， 你 想 儿 贴 
多 少 代码 吏 烙 贴 多 少 。 如 采 想 在 执行 那些 粘贴 进 
去 的 代码 之 前 先 检查 一 番 ， 束 可 以 考 虎 使 
用 %cpaste。 如 采 发 现 粘 贴 的 代码 有 鲁 ， 只 需 按 
下 "Ctrl-C" 即 可 终止 %cpaste 提 示 符 。 


后 面 我 将 会 介绍 IPython HTML Notebook， 它 
使 我 们 能 以 一 种 基于 浏 贤 虱 的 notebook 格 式 途 段 对 
可 执行 代码 单元 进行 分 机 。 


IPython 跟 编辑 如 和 IDE 之 间 的 交互 


某 些 文 本 编辑 器 (如 Emacs 和 vim) 和 带 有 一 些 
能 将 代码 块 直接 发 送 到 IPython shell 的 第 三 方 扩 
展 。 评 情 请 参考 IPython 网 站 或 搜索 3| 苟 。 


某 些 IDE (如 PyDev plugin for Eclipse 和 Python 
Tools for Visual Studio (微软 出 品 ， ) 都 集成 了 
IPython 终 端 应 用 程序 。 如 采 你 既 想 用 IDE 又 不 想 
放弃 IPython 控 制 台 ， 这 可 能 是 个 不 锯 的 选择 。 


键盘 忆捷 键 


IPython 提 供 了 许多 用 于 提示 符 导 航 (Emacs 
文本 编辑 器 或 UNIX bash shell 的 用 户 对 此 会 很 熟 
悉 ) 和 查阅 历史 shell 命 令 ( 详 见 下 一 太 ) 的 键盘 
快捷 键 。 表 3-1 辟 结 了 最 常用 的 一 些 快捷 链 。 图 3-1 
说 明了 几 个 光标 移动 快捷 键 的 功能 。 


Cb Cf 

4 一 一 
In [27]: a_variable In [27]: a vari Ck 
Ca Ce In [27]: Cu 


3-1: 儿 个 IPython 键 型 快捷 键 的 用 法 


表 3-1: IPython 标 准 键盘 快捷 键 


命令 说 明 

Ctrl-P 或 上 箭头 键 后 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-N 或 下 箭头 键 前 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-R 按 行 读 取 的 反 向 历史 搜索 (部 分 匹配 ) 
Ctrl-Shift-v 从 剪贴 板 粘 贴 文本 

Ctrl-C 中 止 当前 正在 执行 的 代码 

Ctrl-A 将 光标 移动 到 行 首 

Ctrl-E 将 光标 移动 到 行 尾 

Ctrl-K 删除 从 光标 开始 至 行 尾 的 文本 

Ctrl-U 清除 当前 行 的 所 有 文本 译注 1 

Ctrl-F 将 光标 向 前 移动 一 个 字符 

Ctrl-b 将 光标 向 后 移动 一 个 字符 

Ctrl-L 清 屏 


译注 12: 这 个 快捷 键 的 功能 只 是 跟 Ctrl-K 相 反 
而 已 ， 即 删除 从 光标 开始 至 行 首 的 文本 ， 并 非 完 


全 删除 。 
异种 和 跟踪 


如 朱 %run 示 段 脚本 或 执行 茶 条 语句 时 发 生 了 
异 利 ，IPython 秋 认 会 输出 整个 调用 栈 跟 踪 
(traceback) ， 其 中 还 会 附 上 调用 栈 各 点 附近 的 
儿 行 代码 作为 上 下 文 参考 。 


In [553]: %run cho3/ipython_bug.py 


AssertionError Traceback (most 
recent call last) 
/home/wesm/code/ipython/IPython/utils/py3compat .pyc in 
execfile(fname, *where) 


176 else: 

177 filename = fname 
--> 178 builtin .execfile(filename, *where) 
book_scripts/ch03/ipython_bug.py In <module>() 

13 throws_an_exception() 

14 


---> 15 calling_things() 
book_scripts/cho03/ipython_bug.py in calling_things() 
11 def calling_ things(): 


12 works_fine() 
---> 13 throws_an_exception() 
14 


15 calling_things() 
book_scripts/ch03/ipython_bug.py in throws_an_exception() 


7 a=5 
8 b=6 

----> 9 assert(a + b == 10) 
10 


11 def calling_things(): 
AssertionError: 


拥有 和 额外 的 上 下 文 代码 参考 是 它 相 对 于 标准 
Python 解释 硕 的 一 大 优势 。 上 下 文 代码 参考 的 数 
量 可 以 通过 %xmode 魔 术 命 令 进 行 控制 ， 既 可 以 少 
(与 标准 Python 解 释 絮 相同 ) 也 可 以 多 ( 帝 有 图 
数 参 数值 以 及 其 他 信息 ) 。 本 章 稍 后 还 会 讲 到 如 
何在 发 生 异 第 之 后 进入 跟 踩 栈 进 行 交 互 式 的 事后 
调试 (post-mortem debugging) 。 


魔术 命令 


IPython 有 一 些 特殊 命令 〈 被 称 为 魔术 命令 
(Magic Command) ) ， 它 们 有 的 为 常见 任务 提 
供 便 利 ， 有 的 则 使 你 能 够 轻松 控制 IPython 系 统 的 
行为 。 魔 术 命令 是 以 百 分 号 % 为 前 缀 的 命令 。 例 
如 ， 你 可 以 通过 %timeit 这 个 魔术 命令 检测 任意 
Python 语句 (如 矩阵 乘法 ) 的 执行 时 间 ( 稍 后 将 
对 此 进行 详细 讲解 ) : 


In [554]: a = np.random.randn(100, 100) 


In [555]: %timeit np.dot(a, a) 
10000 loops, best of 3: 69.1 us per loop 


魔术 命令 可 以 看 做 运行 于 Ipython 系 统 中 的 合 
令 行 程序 。 它 们 大 都 还 有 一 些 “ 命 令 行 选项 *， 使 
用 ? 即 可 查看 其 选项 ; 


In [1]: %reset? 
Resets the namespace by removing all names defined by the 


USer ， 


Parameters 


-f : force reset without asking for confirmation. 


-S : 'Soft' reset: Only clears your namespace, leaving 
history intact. 

References to objects may be kept. By default (without this 
option )， 

we do a 'hard' reset, giving you a new session and removing 
all 

references to objects from the current session. 


Examples 


OO 
他 
mr 一 
下 
[i 
Lm 


In [8]: 'a' in _ip.user_ns 
Out[8]: True 


In [9]: %reset -f 


In [1]: 'a' in _ip.user_ns 
Out[1]: False 


魔术 命令 默认 是 可 以 不 市 百 分 号 使 用 的 ， 只 
要 没有 定义 与 其 同名 的 变量 即 可 。 这 个 技术 叫做 
automagic， 可 以 通过 %automagic 打 开 或 关闭 。 


由 于 可 以 在 IPython 系 统 中 直接 访问 它 的 文 
档 ， 因 此 我 建议 你 浏 哆 一 下 所 有 这 些 特殊 的 命令 
(输入 %quickref 或 %magic 即 可 ) 。 我 将 着 重 讲解 
几 个 重要 的 有 助 于 交互 式 计算 和 Python 开 发 的 大 


表 3-2: 常用 的 IPython 魔 术 命 令 


命令 
%quickref 
%magic 
%debug 
9%hist 
%pdb 


%paste 


说 明 

显示 IPython 的 快速 参考 

显示 所 有 魔术 命令 的 详细 文档 

从 最 新 的 异常 跟踪 的 底部 进入 交互 式 调试 器 
打印 命令 的 输入 (可 选 输出 ) 历史 

在 异常 发 生 后 自动 进入 调试 器 

执行 剪贴 板 中 的 Python 代码 


表 3-2: 常用 的 IPython 魔 术 命 令 ( 续 ) 


命令 

%cpaste 

%reset 

%page OBJECT 
%run script .py 
%prun statement 
%time statement 


%timeit statement 


%who、%who ls、%whos 


%xdel variable 


说 明 

打开 一 个 特殊 提示 符 以 便 手 工 粘贴 待 执 行 的 Python 代码 
删除 interactive 命 名 空间 中 的 全 部 变量 /名 称 

通过 分 页 器 打印 输出 OBJECT 

在 IPython 中 执行 一 个 Python 脚本 文件 

通过 cProfile 执 行 statement， 并 打印 分 析 器 的 输出 结 

报告 statement 的 执行 时 间 

多 次 执行 statement 以 计算 系 综 平 均 执行 时 间 。 对 那些 执行 时 
间 非 常 小 的 代码 很 有 用 

显示 interactive 命 名 空间 中 定义 的 变量 ， 信 息 级 别 /元 余 度 可 变 
删除 variable， 并 党 试 清除 其 在 IPython 中 的 对 象 上 的 一 切 引 用 


基于 Qt 的 语 GUI 探 制 台 


IPython 团 队 开发 了 一 个 基于 Qt 框架 (其 目的 
是 为 终端 应 用 程序 提供 诸如 内 和 座 图 片 、 多 行 编 
辑 、 语 法 高 亮 之 类 的 富 文本 编辑 功能 ) 的 GUI 控制 


台 〈 见 网 3-2) 


"如 采 你 已 经 安 友 了 PyQt 或 


PySide， 使 用 下 面 这 条 命令 来 局 动 的 话 即 可 为 其 
次 加 绘图 功能 : 


ipython qtconsole --pylab=inline 


Qt 控制 台 可 以 通过 标签 页 的 形式 启动 多 个 
IPython 进 程 ， 这 束 使 你 能 够 在 多 个 任务 之 间 轻 松 
切换 。 它 也 可 以 跟 IPython HTML Notebook 应 用 程 
序 共 圣 同一 个 进程 ， 稍 后 我 将 专门 对 此 进行 讲 


解 。 
matplotlib 集 成 写 pylab 模 式 


导致 Python 广泛 应 用 于 科学 计算 领域 的 部 分 
原因 是 它 能 跟 matplotlib 这 样 的 库 以 及 其 他 GUI 工 
有 具 集 默 站 配 合 。 即 使 你 从 未 使 用 过 matplotlib 也 不 
用 担心 ， 本 书 稍 后 会 对 其 进行 详细 讲解 。 如 条 在 
标准 Python shell 中 创建 一 个 matplotlib 绘 口 ， 
你 吏 会 部 站 地 发 现 ，GUI 时 事件 循环 会 撑 管 Python 
会 话 的 控制 权 ， 直 到 该 绘图 窗口 天 闭 为 止 。 这 目 
然 无 法 实现 交互 式 的 数据 分 析 和 可 视 化 ， 因 此 
IPython 对 各 个 GUI 框 架 进 行 了 专 | 的 处 理 以 使 其 
能 够 跟 shell 配 合 得 天 衣 无 颖 。 


通 章 ， 我 们 通过 在 局 动 IPython 时 加 上 --pylab 
(注意 是 两 个 短 划 线 ) 标记 来 集成 matplotlib ( 见 
图 3-3) 。 


$ ipython --pylab 


E> - IPython 
Fle Edit View Kernel Magic Window Help 


For more information, typs 'help(pylab)'. 
n [1]: img = plt.imread('book_scripts/chO3/stinkbug .png') 


In [2]: imshow(img) 
: <matplotlib.image.MAxesIimage at 0x42ece50= 


: plot(randn(1900) .cumsum() ) 
: [<matplotlib.lines.Line2D at Dx45406d0>] 


图 3-2: IPython 的 Qt 控制 台 


这 样 会 导致 儿 个 结果。 第 一 ，IPython 会 局 用 
默认 GUI 后 台 集 成 ， 这 样 matplotlib 绘 口 的 创 
建 束 没 问 题 了。 第 二 ，NumPy 和 matplotlib 的 大 痢 h 
分 功能 会 被 引入 到 最 顶层 的 interactive 命 名 空间 以 
产生 一 个 交互 式 的 计算 环境 〈 就 像 MAITLAB 和 其 
他 领域 特定 型 科学 计算 环境 那样 ) 。 也 可 以 通 
过 %gui 对 此 进行 手工 设置 (详情 请 执行 %gui?) 。 


译注 5: 也 有 译作 内 视 、 自 省 的 ， 不 过 更 多 译作 内 
省 。 


译注 6: 注意 文件 的 路 径 ， 这 里 实际 上 用 的 是 默认 
路 径 。 简 单一 点 的 办 法 丈 是 直 技 写 绝 对 路 径 ， 肯 
定 不 出 销 。 

译注 7: 该 命名 至 间 的 名 字 束 是 interactive 。 

译注 8: Windows 中 此 法 行 不 通 ， 需 要 用 右键 薪 单 
中 的 烙 贴 功能 ， 人 否则 仅 显 示人 第 一 行 。 

译注 9: 注意 ， 这 里 说 的 是 “一 切 ”。 

译注 10: 注意 ， 由 于 是 立即 整体 执行 ， 所 以 不 要 
复制 %paste。 没事 干 的 话 倒是 可 以 试 试 。 

译注 11: 建议 始终 用 这 个 ， 虽 然 各 微 矿 烦 一 点 ， 
但 是 出 错 的 可 能 性 小 很 多 。 


使 用 命令 历史 


库 ，} 
做 有 几 个 目的 ; 


只 需 很 少 的 按键 次 数 即 可 搜索 、 


on 着 一 个 位 于 人 硬盘 上 的 小 型 数据 
其 中 人 有 你 执行 过 的 每 > 


条 命 


命令 的 文本 。 


执行 之 前 已 经 执行 过 的 命令 。 
-在 会 话 间 持久 化 命令 历史 
-将 输入 /输出 历史 记录 到 日 志文 件 。 


IMelcoms to pyleb, 
j4800] ， 
jFor more information, 


a matplotlib-based puthon envir 
tupe ‘help(puleb) 


| plotinp,randon. randnC188). cumsum[)) 
lautc1] Fenatpfotiib’ 1ines,LLne2D at @x3Td8fd9>] 


En 5 四 ，plt.figurel) 

jnut[21: xmatp]jot]ib.figure,Ftgure at Brx3fe5d567 

lin 191: from pandas, io.data tmport oet_data_uahoo 
[4] spu_close = get_date_yehool' SPY )[ hdj Cl 


画 syn': ipython 2 
| File Edit View Bookmarks Settings Help 
Jame: Rdj Close, Length; 252 
|in 17]; spu_close.plot() 
Dut[ 7 tmatplot]ib.axes.Rxes5ubplot ot Bx4364319) 
t, fjourel) 
tplot]ib, figure.Figure et Gx489ae10> 
spy_close .plot() 
<matplot]ib,axes,AxesS5ubplot at @x48a5ad8> 
exit 
4 ~ propbow/hook /sun 下 1python --pulab=at 
jputhon 2.7.2 IEPD ?.1-2 (64-bit)1 (defeult, Jul 3 2941, 15;17;51) 
Tupe "copuright", "credits” or "license” for more information， 
Eeuthon [5 13 dev -- hn enhanced Interactjve Putho 
]ntroduction and overview of 1Puthon eatures, 
|:auickref Quick reference 
jhelp -> Puthon s oun help sustem 
|object? > Details about ‘nbject’, use ‘object??' for extra deta 


orment [backend: 


ose'] 


> 


天 


u_cjose plotr) 
tplot]ib,axes,AxesSubplot st Ox3ff2d98>» 
in 5 
fn ro 0 
画 | 区 .6H| 面 wh 画 thon| 面 ,thn| 面 Byehen| 加 .thon 


Hy 


价 人 QO 十 相克 固 


MW 


0 20 100 


全 OO 二 名 罗拉 国 


135 


3 


© 


12 


加 


MW 
Pa 


115 | 


110 
ES CR 0 Re 
NY nd 0 0 De DN ES 0 en 

RE SN OT Ne! oe 


x-Nov zu11Y-117.05 


目 动 完成 并 


图 3-3: pylab 模 式 : IPython 和 matplotlib 窗 口 
搜索 并 重用 命令 历史 


对 于 诗 多 人 来 说 ， 能 够 搜索 并 执行 前 面 的 命 
令 是 非常 有 用 的 功能 。IPython 倡 导 的 是 一 种 迭代 
的 、 交 互 式 的 开发 模式 : 你 可 能 第 第 会 发 现 目 己 
总 是 在 重复 输入 相同 的 命令 (比如 %run 命 令 或 其 
他 的 代码 片段 ) 。 假 设 你 已 经 执行 了 : 


In[7]: %run first/second/third/Xdata_script,.py 


而 在 查看 其 执行 结果 后 (假设 其 已 经 成 功 执 
行 完 毕 ) 发 现 计算 过 程 不 对 。 在 找 出 问题 原因 并 
修改 了 data_script.py 之 后 ， 只 需 输 入 %run 命 令 的 前 
几 个 字符 并 按 "Ctrl-P" 链 或 上 季 头 键 即 可 。 这 样 束 
会 搜索 出 命令 历史 中 人 第 一 个 与 你 输入 的 字符 相 匹 
配 的 命令 。 多 次 按 "Ctrl-P" 键 或 上 箭头 键 就 会 在 命 
令 历 史 中 不 断 搜 索 。 如 采 你 错过 了 想 要 的 那 条 命 
令 也 没关系 ， 你 可 以 按 "Ctrl-N" 键 或 下 第 头 键 在 命 
令 历 史 中 前 同 搜 索 。 只 要 多 操作 几 次 ， 以 后 你 会 
想 都 不想 地 按 下 这 些 键 ! 


"Ctrl-R" 用 于 实现 部 分 增 量 搜索 ， 跟 UNIX 型 
shell 中 的 readline 所 提供 的 功能 一 样 。 在 Windows 
上 ，IPython 模 拟 了 readline 功 能 。 按 下 "Ctrl-R" 并 输 
入 你 想 搜索 的 行 中 的 儿 个 字符 : 


In [1]: a command = foo(x, y, Zz) 


(reverse-i-search) com': a command = foo(x, y, Zz) 


按 下 "Ctrl-R" 将 会 循环 搜索 命令 历史 中 每 一 条 
与 输入 相符 的 行 。 


答 入 和 输出 变量 


乐 记 把 函数 结 采 赋值 给 变量 是 一 件 让 人 很 郁 
问 的 事情 。 好 在 IPython 会 将 输入 (你 输入 的 那些 
文本 ) 和 输出 (返回 的 对 象 ) 的 引用 保存 在 一 些 
符 殊 变量 中 。 最 近 的 两 个 输出 结 来 分 别 休 存 在 _ 
(一 个 下 划 线 ) 和 _ (两 个 下 划 线 ) 变量 中 : 


In [556]: 2 ** 27 
out[556] : 134217728 


In [557]: _- 
out[557] : 134217728 


输入 的 文本 被 休 存在 名 为 ix 的 变量 中 ， 其 中 
X 生 输入 行 的 行 号 。 每 个 输入 变量 都 有 一 个 对 应 的 
输出 变量 X。 比 如 说 ， 在 输入 完 第 27 行 后 ， 驳 会 
产生 两 个 新 变量 _27 (输出 变量 和 _i27 (输入 变 
量 ) 。 
In [26]: foo = 'bar' 


In [27]: foo 
Out[27]: 'bar' 


In [28]: _i27 
Out[28]: u'foo' 


In [29]: _27 
Out[29]: 'bar' 


由 于 输入 变量 是 字符 串 ， 因 此 可 以 用 Python 
的 exec 关 键 子 重新 执行 : 


In [30]: exec _i27 


有 几 个 魔术 命令 可 用 于 控制 输入 和 输出 历 
史 。%hist 用 于 打印 全 部 或 部 分 输入 历史 ， 可 以 选 
择 是 否 市 行 号 。%reset 用 于 清空 interactive 命 名 空 
间 ， 并 可 选择 是 否 清 空 输入 和 输出 缓存 。9%xdel 用 
于 从 IPython 系 统 中 移 除 特定 对 象 的 一 切 引用 。 庄 
细 信 息 请 参考 相应 魔术 命令 的 文档 。 


警告 ， 在 处 理 非常 大 的 数据 集 时 ， 一 定 要 注 
意 IPython 的 输入 输出 历史 ， 它 会 导致 所 有 对 象 引 
用 都 无 法 被 垃圾 收集 器 人 处理 〈 即 释放 内 存 ) ， 即 
使 用 del 天 键 字 将 变量 从 interactive 命 名 空间 中 删除 
也 不 行 。 对 于 这 种 情况 ， 谭 慎 地 使 用 %xdel 
和 %reset 将 有 助 于 避免 出 现 内 存 方面 的 问题 。 


记录 输入 和 和 输出 


IPython 能 够 记录 整个 控制 台 会 话 ， 包 括 输 入 
和 输出 。 执 行 %logstart 即 可 开始 记录 日 志 : 


In [3]: %logstart 

Activating auto-logging. Current session state plus future 
input saved. 

Filename : ipython_log.py 

Mode : rotate 

Output logging : False 

Raw input log : False 

Timestamping : False 

State : active 


IPython 的 日 志 功 能 可 以 在 任何 时 刻 开 局 ， 它 
将 记录 你 的 整个 会 话 (包括 此 前 的 命令 ) 。 
此 ， 如 采 你 在 写 代 人 码 的 过 程 中 ， 突 然 想 要 保存 所 
有 工作 的 时 候 ， 和 直接 局 动 日 记功 能 束 行 了 。 
%logstart 的 具体 选项 (比如 修改 输出 文件 路 径 ) 
请 参考 其 文档 ， 此 外 还 可 以 看 看 儿 个 与 之 配套 的 
魔术 命令 %logoff、%logon、%logstate 以 
及 %logstop ° 


与 哥 作 系统 交互 


IPython 有 的 为 一 个 重要 特点 就 是 它 跟 操作 系统 
shell 结 合 得 非常 紧密 。 也 束 是 说 ， 你 可 以 直接 在 
IPython 中 实现 标准 的 Windows 或 UNIX (Linux、 
OS X) 命令 行 活动 。 比如 执行 shell 命 令 、 更 改 目 
录 、 将 命令 的 执行 结果 你 存 在 Python 对 和 象 (列表 
或 字符 串 ) 中 等 。 此 外 ， 它 还 提供 了 shell 命 令 别 
名 以 及 目录 书 釜 等 功能 。 


表 3-3 总 结 了 用 于 调用 shell 命 令 的 魔术 命令 及 
其 语法 。 我 将 在 后 面 儿 广 中 向 要 介绍 这 些 功能 。 


表 3-3: 跟 系 统 相 关 的 IPython 魔 术 命 令 


命令 说 明 

licmd 在 系统 shell 中 执行 cmd 

output = !cmd args 执行 cmd， 并 将 stdout 存 放 在 output 中 
%alias alias_name cmd 为 系统 shell 命 令 定 义 别名 

%bookmark 使 用 IPython 的 目录 书签 系统 

9%cd directory 将 系统 工作 目录 更 改 为 directory 
%pwd 返回 系统 的 当前 工作 目录 

%pushd directory 将 当前 目录 入 栈 ， 并 转向 目标 目录 
%popd 弹出 栈 顶 目录 ， 并 转向 该 目录 


9%dirs 返回 一 个 含有 当前 目录 栈 的 列表 


表 3-3: 跟 系 统 相 关 的 IPython 魔 术 命 令 ( 续 ) 


命令 说 明 

%dhist 打印 目录 访问 历史 

%env 以 dict 形 式 返 回 系统 环境 变量 
2 口 A 

shell 命 令 和 别名 


”在 IPython 中 ， 以 感叹 号 (!) 开头 的 命令 行 表 
示 其 后 的 所 有 内 容 需要 在 系统 shell 中 执行 。 也 就 
是 说 ， 你 可 以 删除 文件 〈 根 据 OS 的 不 同 ， 使 用 rm 
或 del) 、 修 改 目 隶 或 执行 任意 其 他 处 理 过 程 。 甚 
至 还 可 以 局 动 一 些 能 将 控制 权 从 IPython 手 中 地 走 
的 进程 〈 比 如 另外 再 局 动 一 个 Python 解释 器 ) : 

In [2]: !python 

和 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 

pe 0 20080704 (Red Hat 4.1.2-44)] on linux2 


Type "packages", "demo" or "enthought" for more information. 
>>> 


此 外 ， 还 可 以 将 shell 命 令 的 控制 台 输 出 存放 
到 变量 中 ， 只 需 将 ! 开头 的 表达 式 赋 值 给 变量 即 
可 。 例 如 ， 我 的 Linux 电 脑 通 过 以 太 网 连接 到 互联 
网 ， | 以 将 我 的 IP 地 址 存 到 一 个 Python 变 量 中 
= 译注 13 


In [1]: ip_info = !ifconfig etho0 | grep "inet" 


In [2]: ip_info[0].strip() 


Out[2]: 'inet addr:192.168.1.137 Bcast:192.168.1.255 
Mask:255.255.255.0' 


运 回 的 Python 对 象 ip_info 实 际 上 是 一 个 含有 控 
制 全 输出 结 末 的 目 定义 列表 类 型 。 


在 使 用 ! 时 ，IPython 还 允许 使 用 当前 环境 中 
定义 的 Python 值 只 需 在 变量 名 前 面 加 上 美元 符 
号 ($) 即 可 : 译 汪 14 


In [3]: foo = 'test*' 


In [4]: !ls $foo 
test4.py test.py test.xml 


魔术 命令 %alias 可 以 为 shell 命 令 自 定 义 简 称 。 
例如 : 


In [1]: %alias 1]1 ls -1 


In [2]: 11 /usr 

total 332 

drwxr -xr-x 2 root root 69632 2012-01-29 20:36 
bin/ 

drwxr -xr-x 2 root root 4096 2010-08-23 12:05 
games/ 

drwxr-xr-x 123 root root 20480 2011-12-26 18:08 
include/ 

drwxr-xr-x 265 root root 126976 2012-01-29 20:36 
1ib/ 

drwxr -xr-x 44 root root 69632 2011-12-26 18:08 


1ib32/ 

J]rwxrwxrwx 1 root root 3 2010-08-23 16:02 
1]ib64 -> lib/ 

drwxr -xr-x 15 root root 4096 2011-10-13 19:03 
local/ 


drwxr -xr-x 2 root root 12288 2012-01-12 09:32 


sbin/ 

drwxr-xr-x 387 root root 12288 2011-11-04 22:53 
share/ 

drwxrwsr-x 24 root src 4096 2011-07-17 18:38 
src/ 


可 以 一 次 执行 多 条 命令 ， 只 需 将 它们 写 在 一 
行 上 并 以 分 号 隔 开 即 可 : 


In [558]: %alias test alias (cd ch08; ls; cd ..) 


In [559]: test_alias 
macrodata.csv spx.csv tips.csv 


注意 ，IPython 会 在 会 话 结束 时 立即 “ 环 记 ”你 
所 定义 的 一 切 别名 。 A 你 
需要 使 用 配置 系统 。 本 章 稍 后 会 对 此 进行 介绍 。 


日 了 永 书 俭 系统 


IPython 有 一 个 商 结 的 日 条 书签 系统 ， 它 使 你 
能 保存 常用 目录 的 别名 以 便 实 现 快速 跳 转 。 比 如 
说 作为 一 名 狂热 的 Dropbox 用 户 ， 为 了 能 够 快速 
地 转 到 我 的 Dropbox 目 隶 ， 我 可 以 定义 一 个 书签 : 


In [6]: %bookmark db /home/wesm/Dropbox/ 


在 定义 好 书签 之 后 ， 束 可 以 在 执行 魔术 命 
令 %cd 时 使 用 这 些 书 钨 了 : 


In [7]: cd db 
(bookmark:db) -> /home/wesm/Dropbox/ 


/home/wesm/Dropbox 


如 果 书 签名 与 当前 工作 目录 中 的 某 个 目录 名 
冲突 ， 可 以 通过 -b 标 记 (其 作用 是 履 写 ) 使 用 书 
目 永 。9%bookmark 的 -1 选项 的 作用 和 是 列 出 所 有 书 


In [8]: %bookmark -1 
Current bookmarks: 
db -> /home/wesm/Dropbox/ 


和 书 侈 女 别 名 的 区 别 在 于 ， 它 们 会 被 目 动 持 久 


译注 13: 之 前 已 经 说 过 ， 作 者 用 的 不 是 Windows 探 
作 系 统 ， 所 以 这 个 命令 目 然 无 法 执行 。Windows 上 
可 以 用 ipconfig， 但 毕竟 不 是 一 样 东 西 ， 这 里 的 代 
码 目 己 能 看 明白 即 可 。 

译注 14: 在 Windows 中 ， 将 1s 换 成 dir。 


软件 开发 工具 


IPython 不 仅 是 一 种 舒适 的 交互 式 计 算 和 数据 
分 析 环 境 ， 同 时 也 非常 适合 成 为 一 种 软件 开发 环 
境 。 在 数据 分 析 应 用 程序 中 ， 最 重要 的 事情 就 是 
拥有 正确 的 代码 。 科 运 的 是 ，IPython 紧 密集 成 并 
加 强 了 Python 内 置 的 pdb 调试 器 。 此 外 ， 你 还 希望 
代码 运行 能 足够 快 。 为 此 ，IPython 提 供 了 一 些 简 
单 易 用 的 代码 运行 时 间 及 性 能 分 析 工 具 。 下 面 ， 
我 将 对 这 些 工具 做 一 个 详细 介绍 。 


交互 式 调 斌 可 


IPython 的 调试 絮 增 强 了 pdb， 如 Tab 键 目 动 完 
成 、 语 法 高 有 党 、 为 异常 跟 哇 的 每 条 信息 添加 上 下 
文 参考 年 。 调 斌 代码 的 最 住 时 机 之 一 束 是 锯 认 刚 
刚 发 生 那 会 儿 。%debug 命 令 (在 发 生 异 常 之 后 马 
上 输入 ) 将 会 调用 那个 “事后 ”调试 器 ， 并 直接 跳 
转 到 引发 异常 的 那个 栈 帧 \stack frame) : 


In [2]: run cho03/ipython_bug.py 

AssertionError Traceback (most 

recent call last) 

/home/wesm/book_scripts/ch03/ipython_bug.py In <module>() 
throws_an_exception() 


14 
---> 15 calling_ things() 


/home/wesm/book_scripts/ch03/ipython_bug.py in 
calling_ things() 
11 def calling_ things(): 


12 works_fine() 
= 3 throws_an_exception() 
14 


15 calling_things() 


/home/wesm/book_scripts/ch03/ipython_bug.py in 
throws_an_exception() 


7 a = 5 
8 b = 6 
--> 9 assert(a + b == 10) 


10 
11 def calling_things(): 


AssertionError: 
In [3]: %debug 
> 


/home/wesm/book_scripts/ch03/ipython_bug.py(9)throws_an_excep 


tion() 
8 b=6 

--> 9 assert(a + b == 10) 
10 

ipdb> 


在 这 个 调试 磊 中 ， 你 可 以 执行 任意 Python 人 \ 


码 并 查看 各 个 栈 帧 中 的 一 切 对 象 和 数据 (也 就 十 
解释 器 还 “ 留 了 条 生路 ”的 那些 ) 。 默 认 是 从 最 低 


级 开始 的 ( 即 错误 发 生 的 地 方 ， ° 输入 u (或 up) 


和 d (或 down) 即 可 在 栈 跟 踩 的 各 级 别 之 间 切 换 : 


ipdb> u 
> 
/home/wesm/book_scripts/ch03/ipython_bug.py(13)calling_things 


12 works_fine() 


---> 13 throws_an_exception() 
14 


执行 %pdb 命 令 可 以 让 IPython 在 出 现 异 和 常 之 后 
自动 调用 调试 器 。 很 多 人 都 认为 这 是 一 个 非常 实 
用 的 功能 。 


此 外 ， 调 试 絮 还 可 以 为 代码 开发 工作 提供 玫 
助 ， 尤 其 古 当 你 想 要 设置 断 点 或 对 函数 /脚本 进行 
单 步 调试 以 得 看 各 条 语句 的 执行 情况 时 。 实 现 这 
个 目的 的 方式 有 儿 个 。 第 一 ， 使 用 市 有 -d 选 项 
的 %run 命 令 ， 这 将 会 在 执行 脚本 文件 中 的 代码 之 
前 先 打开 调试 器 。 必 须 立 即 输入 s (或 step) 才能 
进入 脚本 ， 译 #15 

In [5]: run -d cho3/ipython_bug.py 
Breakpoint 1 at /home/wesm/book_scripts/ch03/ipython_bug.py:1 


NOTE: Enter 'c' at the ipdb> prompt to start your script. 
> <string>(1)<module>() 


ipdb> s 
> g:\ipython_bug.py(1)<module>() 
1---> 1 def works_fine(): 


在 此 之 后 ， 该 文件 接 下 来 的 执行 方式 就 全 插 
你 一 句 话 了 。 比 如 说 ， 在 上 面 那 个 异 单 中， 我 们 
可 以 在 调用 works_fine 方 法 的 地 方 设置 一 个 断 点 ， 
然后 输入 c (或 continue) 使 脚本 一 直 运 行 下 去 直 
到 该 断 点 时 为 止 : 


ipdb> b 12 

ipdb> c 

> 
/home/wesm/book_scripts/ch03/ipython_bug.py(12)calling_things 


11 def calling_things(): 


2--> 12 works_fine() 
13 throws_an_exception() 


这 时 可 以 单 步 进入 works_fine0) 或 执行 
works_fine() (输入 n (或 next) 直接 执行 到 下 一 行 


译注 16) 
ipdb> n 
> 
/home/wesm/book_scripts/ch03/ipython_bug.py(13)calling_things 
2 12 works_fine() 
--> 13 throws_an_exception() 
14 


然后 ， 我 们 单 步 进入 throws_an_exception 并 二 
进 到 发 生 销 误 的 那 一 行 ， 查 看 在 此 苑 围 内 的 变 
量 。 注 意 ， 调 试 希 命令 的 优先 级 高 于 变量 名 。 这 
时 在 变量 前 面 加 上 感叹 号 (! ) 即 可 查看 其 内 


< 


入? 


ipdb> s 
--Call-- 


> 
/home/wesm/book_scripts/ch03/ipython_bug.py(6)throws_an_excep 
tion() 

5 
----> 6 def throws_an_ exception(): 

7 a = 5 


ipdb> n 


> 
/home/wesm/book_scripts/ch03/ipython_bug.py(7)throws_an_excep 


tion() 
6 def throws_an_exception(): 
-->7 a=5 
8 b=6 
ipdb> n 
> 
/home/wesm/book_scripts/ch03/ipython_bug.py(8)throws_an_excep 
tion() 
7 a=5 
--> 8 b=6 
9 assert(a + b == 10) 
ipdb> n 
> 
/home/wesm/book_scripts/ch03/ipython_bug.py(9)throws_an_excep 
tion() 
8 b=6 
--> 9 assert(a + b == 10) 
10 
ipdb> !a 
5 
ipdb> !b 
6 


要 想 精 通 这 个 交互 式 调试 器 ， 必 须 经 过 大 量 
的 实践 才 行 。 表 3-4 列 出 了 该 调试 器 的 全 部 命令 。 
如 果 你 习惯 了 使 用 某 款 IDE， 刚 开始 用 这 种 终端 型 
调试 万 的 时 候 可 能 会 觉得 有 点 厅 烦 ， 但 慢 慢 束 会 
习惯 了 。 虽 然 大 部 分 Python IDE 都 拥有 优秀 的 GUIl 
调试 器 ， 但 是 在 IPython 中 调试 程序 却 往往 会 带 来 
更 高 的 生产 率 。 


表 3-4: (I)Python 调 试 器 命令 


命令 功能 

h(elp) 显示 命令 列表 

help command 显示 command 的 文档 

c(ontinue) 恢复 程序 的 执行 
表 3-4: (1)Python 调 试 器 命令 ( 续 ) 

命令 功能 

q(uit) 退出 调试 器 ， 不 再 执行 任何 代码 

b(reak) number 在 当前 文件 的 第 rumber 行 设置 一 个 断 点 

b path/to/file.py:number 在 指定 文件 的 第 number 行 设置 一 个 断 点 

s(tep) 单 步 进入 函数 调用 

n(ext) 执行 当前 行 ， 并 前 进 到 当前 级 别 的 下 一 行 
u(p)/d(own) 在 函数 调用 栈 中 向 上 或 向 下 移动 

alrgs) 显示 当前 函数 的 参数 

debug statement 在 新 的 (递归 ) 调试 器 中 调用 语句 statement 

1(ist) statement 显示 当前 行 ， 以 及 当前 栈 级 别 上 的 上 下 文 参考 代码 
w(here) 打印 当前 位 置 的 完整 栈 跟踪 (包括 上 下 文 参考 代码 ) 


调试 如 的 其 他 使 用 场景 


除 上 面 提 到 的 之 外 ， 还 有 田 外 几 种 调用 调试 
右 的 手段 。 第 一 ， 使 用 set trace 这 个 特别 的 函数 
(以 pdb.set_trace 命 名 ) ， 这 爱 不 多 可 以 算 作 一 
种 “穷人 的 断 点 下 17”。 下 面 这 两 个 方法 可 能 会 在 
你 的 日 常 工 作 中 派 上 用 场 (你 也 可 以 像 我 一 样 直 
接 将 其 添加 到 IPython 配 置 中 ) : 


def Set_trace() : 
from IPython.core.debugger :import Pdb 


Pdb(color_scheme='Linux').set_ trace(sys._getframe().f_back) 
def debug(f, *args, **kwargs): 
from IPython.core.debugger import Pdb 


pdb = Pdb(color_scheme='Linux') 
return pdb.runcall(f, *args, **kwargs) 


第 一 个 函数 (set_trace) 非常 简单 。 你 可 以 将 
其 放 在 代码 中 任何 希望 停 下 来 查看 一 番 的 地 方 
(比如 发 生 异 常 的 地 方 ) : 


In [7]: run cho3/ipython_bug.py 


> 
/home/wesm/book_scripts/ch03/ipython_bug.py(16)calling_things 


15 set_trace() 
--> 16 throws_an_exception() 
17 


按 下 c (或 continue) 仍然 会 使 代码 恢复 执 
行 ， 不 受 任何 影响 。 


男 外 那个 debug 玉 数 使 你 能 够 直接 在 任意 函数 
上 使 用 调研 器。 假设 我 们 写 了 如 下 凡 数 : 
def f(x, y, z=1): 


tmp = X + y 
return tmp / z 


现在 想 对 其 进行 捍 步 调试 。f 的 正常 使 用 方式 
应 该 类 似 于 f(1,2,z=3) 这 个 样子 。 为 了 能 够 早 步 进 


入 f， 将 f 作 为 第 一 个 参数 传 给 debug， 后 面 按 顺 厅 
再 跟 上 各 个 需要 传 给 {的 关键 字 参 数 : 
In [6]: debug(f, 1, 2, z=3) 
> <ipython-input>(2)f() 
1 def f(x, y, Zz): 


--> 2 tmp = X +y 
3 return tmp /2z 


ipdb> 


我 发 现 这 两 个 函数 虽然 简单 ， 但 是 在 日 闻 工 
作 当 中 却 也 省 了 我 不 少 的 时 间 。 


此 外 ， 这 个 调研 絮 还 可 以 结合 %run 使 用 。 通 
过 %run-d 执 行 脚本 ， 你 将 会 直接 进入 调试 姨 ， 然 
后 可 以 设置 一 些 断 点 并 启动 脚本 : 


In [1]: %run -d cho3/ipython_bug.py 

Breakpoint 1 at /home/wesm/book_scripts/ch03/ipython_bug.py:1 
NOTE: Enter 'c' at the ipdb> prompt to start your script. 

> <string>(1)<module>() 


ipdb> 


”如 采 青 加 上 -b 和 一 个 行 号 ， 则 调试 絮 在 局 动 
时 束 会 目 动 设置 一 个 断 抬 : 


In [2]: %run -d -b2 ch03/ipython_ bug.py 

Breakpoint 1 at /home/wesm/book_scripts/ch03/ipython_bug.py:2 
NOTE: Enter 'c' at the ipdb> prompt to start your script. 

> <string>(1)<module>() 


ipdb> c 
> /home/wesm/book_scripts/ch03/ipython_bug.py(2)works_fine() 
1 def works_fine(): 


测试 代码 的 执行 时 间 : %time 和 %timeit 


对 于 规模 更 大 、 运 行 时 间 更 长 的 数据 分 析 应 
用 程序 ， 你 可 能 会 布 望 测试 一 下 各 个 部 分 或 函数 
调用 或 语句 的 执行 时 间 。 你 可 能 会 布 望 了 解 示 个 
复杂 计算 过 程 中 a 到 奈 是 哪些 函数 占用 的 时 间 最 
多 。 至 运 的 是 ， 在 开发 和 测试 代码 的 过 程 中 ， 
IPython 能 够 让 你 轻松 得 到 这 些 信息 。 使 用 内 置 的 
time 模 块 及 其 time.clock 和 time.time 函 数 手工 测试 代 
人 码 执 行 时 间 是 一 件 令 人 烦闷 的 事情 ， 因 为 你 必须 
编写 许多 一 模 一 样 的 了 无 生 趣 的 公式 化 代码 : 

ye 

for i in range(iterations): 


# 这 里 放 一 些 待 执行 的 代码 
elapsed per = (time.time() - start) / iterations 


由 于 这 是 一 个 非常 常用 的 功能 ， 所 以 IPython 
专门 提供 了 两 个 魔术 函数 (%time 和 %timeit) 以 便 
自动 完成 该 过 程 。%time 一 次 执行 一 条 语句 ， 然 后 
报告 总 体 执 行 时 间 。 假 设 我 们 有 一 大 堆 字 符 串 ， 
布 望 对 几 个 “能 够 选 出 具有 特殊 前 级 的 字符 串 ” 的 
函数 进行 比较 。 下 面 是 一 个 拥有 60 万 字符 串 的 数 


组 ， 以 及 两 个 不 同 的 "能够 选 出 其 中 以 foo 开 头 的 字 
符 串 ”的 方法 : 


# 一 个 非 弟 入 鸭子 付 申 效 4 
strings = ['foo', 'foobar', 'baz', 'gux', 'python', 'Guido 
Van Rossum'] * 100000 


method1 = [x for x in strings if x.startswith('foo')] 


method2 = [x for x in strings if x[:3] == 'foo'] 


看 上 去 它们 的 性 外 EB 表现 应 该 老 不 多 ， 对 吧 ? 
我 们 通过 %time 来 确认 一 下 : 


In [561]: %time method1 = [x for x in strings if 
x.startswith('foo')] 

CPU times: user 0.19 s, sys: 0.00 s, total: 0.19 s 
Wall time: 0.19 s 


In [562]: %time method2 = [x for x in strings if x[:3] == 
'foo'] 

CPU times: user 0.09 s, sys: 0.00 s, total: 0.09 s 

Wall time: 0.09 s 


当 上 时 间 (Wall time) 是 我 们 最 感 兴趣 的 数 
字 。 所 以 ， 看 上 去 第 一 个 方法 耗费 了 两 倍 以 上 的 
时 间 ， 但 这 并 不 是 一 个 非常 精确 的 结果 。 如 果 你 
同 语句 多 次 执行 %time 有 的话， ee 

会 变 的 。 为 了 得 到 更 为 精确 的 结果 ， 需 要 使 用 
广 术 南 数 obtimeit 。 对 于 任意 语句 ， 它 会 目 动 多 次 
执行 以 产生 一 个 非常 精确 的 平均 执行 时 间 。 


In [563]: %timeit [x for x in strings if x.startswith('foo')] 
10 loops, best of 3: 159 ms per loop 


In [564]: %timeit [x for x in strings if x[:3] == 'foo'] 
10 loops, best of 3: 59.3 ms per loop 


这 个 狗 似 平淡 无 奇 的 例子 正好 说 明了 一 个 事 
实 : 我 们 非常 有 必要 了 解 Python 标 准 库 、 
NumFy 、 pandas 以 及 本 书 中 所 用 到 的 其 他 库 的 性 
能 特点 。 在 大 型 数据 分 析 应 用 程序 中 ， 这 些 不 起 
眼 的 窜 秒 数 全 会 不 断 素 积 的 ! 


对 于 那些 执行 时 间 非 常 短 〈 甚 至 是 那些 微 秒 
(1e-6 秒 ) 或 纳 秒 (1e-9 秒 ) 级 的 ) 的 分 析 语句 和 

国 效 而 言 ，%timeit 和 是非 铅 有 用 的 。 昌 然 这 上 时 间 
值 小 到 几乎 可 以 忽略 不 计 ， 但 同样 执行 100 万 次 一 
个 20 微 秒 的 函数 ， 所 用 的 时 间 要 比 一 个 5 微 秒 的 多 
15 秒 。 在 上 面 那个 例子 中 ， 我 们 可 以 直接 对 那 两 
个 字符 绅 运 算 进 行 比较 以 了 解 其 性 能 特点 : 

In [565]: x = 'foobar' 

In [566]: y = 'foo' 


In [567]: %timeit x.startswith(y) 
1000000 loops, best of 3: 267 ns per loop 


In [568]: %timeit x[:3] == y 
10000000 loops, best of 3: 147 ns per loop 


基本 性 能 分 析 : %prun 和 9%run -p 


代码 的 性 能 分 析 跟 代码 执行 时 间 密 切 相 关 ， 
只 不 过 它 关 注 的 是 耗费 时 间 的 位 置 。 主 要 的 


Python 性 能 分 析 工 具 是 cProfile 模 块 ， 它 不 是 专 为 
IPython 设 计 的 。cProfile 在 执行 一 个 程序 或 代码 块 
时 ， 会 记 孙 各 芳 数 所 杰 费 的 时 间 。 


cProfile 一 般 是 在 命令 行 上 使 用 的 ， 它 将 执行 
整个 程序 然后 输出 各 函数 的 执行 时 间 。 假 设 我 们 
有 一 个 简单 的 脚本 ， 在 一 个 循环 中 执行 一 些 线性 
(计算 一 个 100x100 的 矩阵 的 最 大 本 征 值 
缀 六 o 


Import numpy as np 
from numpy.1linalg import eigvals 


def run_experiment(niter=100): 
K = 100 
results = [] 
for _ in xrange(niter ) : 
mat = np.random.randn(K, K) 
max_eigenvalue = np.abs(eigvals(mat)).max() 
results.append(max_eigenvalue) 
return results 
some_results = run_experiment() 
print 'Largest one we saw: %s' % np.max(some_results) 


如 采 你 还 不 惜 NumPy， 和 暂时 先 别 管 ， 后 面 会 
讲 的 。 在 命令 行 中 输入 下 列 命令 妈 可 通 Ni 
局 动 该 脚本 : 


python -m cProfile cprof_example.py 


执行 你 会 发 现 输 出 结 示 走 按 函 效 名 排 
展 果 号 文生 我 科 很 准 改 现 昭 里子 是 晶 共 时间 的 地 


方 ， 因 此 通 利 都 会 再 用 -s 标 记 指定 一 个 排序 规则 : 


$ python -m cProfile -s cumulative cprof_example.py 
Largest one we saw: 11.923204422 

15116 function calls (14927 primitive calls) in 0.720 
seconds 


Ordered by: cumulative time 


ncalls tottime percall cumtime percall 
filename:lineno(function) 

1 0.001 ©0.001 0.721 0.721 
cprof_example.py:1(<module>) 

100 0.003 0.000 0.586 0.006 
linalg.py:702(eigvals) 

200 0.572 0.003 0.572 0 .003 
{numpy.1linalg.lapack_lite.dgeev} 

1 0 .002 0.002 0.075 0.075 
init_ _.py:106(<module>) 

100 0.059 0.001 0.059 0.001 {method 'randn') 
0.000 0.000 0.044 0.044 
add_newdocs.py:9(<module>) 

2 0.001 0.001 0.037 0.019 
__init .py:1(<module>) 

2 0.003 0.002 0.030 0.015 
__init .py:2(<module>) 

1 0.000 0.000 0.030 0.030 
type_check.py:3(<module>) 

1 0.001 0.001 0.021 0 .021 
_ init .py:15(<module>) 

1 0.013 0.013 0.013 0 .013 
numeric.py:1(<module>) 

1 0.000 0.000 0.009 0 .009 
__init .py:6(<module>) 

1 0.001 0.001 0.008 0.008 
init__ .py:45(<module>) 

262 0.005 0.000 0.007 0.000 
function_base.py:3178(add_newdoc) 

100 0.003 0.000 0.005 0 .000 


linalg.py:162(_assertFinite) 


这 里 只 给 出 了 输出 结果 中 的 前 15 行 。 只 需 碍 
看 cumtime 列 即 可 发 现 各 芳 数 所 耗费 的 忌 时 间 。 注 
意 ， 如 琳 一 个 画 数 调用 了 别 的 函数 ， 计 时 右 古 不 
会 停 下 来 重新 计时 的 。cProfile 记 录 的 是 各 函数 调 
用 的 起 始 和 线束 时 间 ， 并 依 此 计算 总 时 间 。 


除 命令 行 用 法 之 外 ，cProfile 还 可 以 编程 的 方 
式 分析 任 意 代 码 块 的 性 能 。IPython 为 此 提供 了 一 
个 方便 的 接口 ， 即 %prun 命 令 和 市 -p 选 项 的 %run 。 
%prun 的 格式 跟 cProfile 才 不 多 ， 但 它 分 析 的 是 
Python 语句 而 不 是 整个 .py 文件 : 


In [4]: %prun -1 7 -s cumulative run_experiment() 
4203 function calls in 0.643 seconds 


Ordered by: cumulative time 
List reduced from 32 to 7 due to restriction <7> 


ncalls tottime percall cumtime percall 
filename:lineno(function) 
1 0 .000 0.000 0.643 0.643 
<string>:1(<module>) 
1 0.001 0.001 0.643 0.643 
cprof_example.py:4(run_experiment) 
100 0 .003 0.000 0.583 0.006 
linalg.py:702(eigvals) 
200 0.569 0.003 0.569 0.003 
{numpy.1linalg.1lapack_lite.dgeev} 
100 0.058 0.001 0.058 0.001 {method "randn ' 
100 0.003 0.000 0.005 0.000 
linalg.py:162(_assertFinite) 
200 0 .002 0.000 0.002 
'numpy .ndarray' objects} 


© 


.000 {method 'all' of 


执行 %run -p -s cumulative cprof example.py 也 
能 达到 上 面 那 条 系统 命令 行 命 令 一 样 的 歼 末 ， 但 
是 却 无 需 退 出 IPython 。 


途 行 分 析 范 数 性 能 


有 些 时 候 ， 从 %prun (或 其 他 基于 cProfile 的 
性 能 分 析 手 段 ) 得 到 的 信息 要 么 不 足以 说 明 函 数 
的 执行 时 间 ， 要 么 就 复 杂 到 难以 理解 〈 按 函数 名 
聚合 ) 。 对 于 这 种 情况 ， 我 们 可 以 使 用 一 个 叫做 
line_profiler 的 小 型 库 (可 以 通过 PyPI 或 随便 一 种 
包 管 理工 具 获 取 ) 。 其 中 有 一 个 新 的 魔术 画 
数 %lprun， 它 可 以 对 一 个 或 多 个 函数 进行 逆 行 性 
能 分 析 。 你 可 以 修改 IPython 配 置 (参考 IPython 文 
件 或 本 革 稍 后 天 于 配置 的 内 容 ) 以 局 用 这 个 扩 
展 ， 代 码 如 下 所 示 : 


# A list of dotted module names of IPython extensions to 
load. 
c.TerminalIPythonApp.extensions = ['line_ profiler'] 


line_profiler 可 以 通过 编程 的 方式 使 用 (请 参 
阅 完 整 文档 ) ， 但 其 最 强大 的 一 面 却 是 在 IPython 
中 的 交互 式 使 用 。 假 设 你 有 一 个 prof _ mod 模块 ， 
其 中 有 一 些 用 于 Numpy 数 组 计算 的 代码 ， 如 下 所 
人 人 \: 


from numpy.random import randn 


def add_and_sum(x, y): 
added =x+y 
summed = added.sum(axis=1) 
return summed 


def call_ function(): 
x = randn(1000, 1000) 


y = randn(1000, 1000) 
return add_and_sum(x, y) 


如 果 我 们 想 了 解 add_and_sum 碎 数 的 性 能 
%prun 会 给 出 如 下 所 示 的 结 采 : 


In [569]: %run prof_mod 


? 


In [570]: x = randn(3000, 3000) 
In [571]: y = randn(3000, 3000) 
In [572]: %prun add_and_sum(x, y) 
4 function calls in 0.049 seconds 

Ordered by: internal time 
ncalls tottime percall cumtime percall 
filename:lineno(function) 

1 0.036 0.036 0.046 0.046 
prof_mod.py:3(add_and_sum) 

1 0.009 0.009 0.009 0.009 {method 'sum' of 
'numpy .ndarray' objects} 

1 0.003 0.003 0.049 0.049 <string>:1(<module>) 

1 0.000 0.000 0.000 0.000 {method 'disable' of 
'_lsprof.Profiler' objects} 


个 结 来 并 不 能 说 明 什 么 问题 。 局 用 
line_profiler 这 个 IPython 扩 展 之 后 ， 就 会 | 
新 的 魔术 命令 %]lprun。 用 法 上 唯一 的 区 别 职 
必须 和 gpmn 指 明 想 要 测 斌 于 个 或 哪 些 本数 
%lprun 的 通用 语法 为 : 


%lprun -f funcl -f func2 statement_to_profile 


在 本 例 中 ， 我 们 想 要 测试 的 古 add_and_sum， 
于 是 执行 : 


In [573]: %lprun -f add_and_ sum add _ and_sum(x, y) 
Timer unit: 1e-06 s 

File: book_scripts/prof_mod.py 

Function: add_and_sum at line 3 

Total time: 0.045936 S 


Line # Hits Time Per Hit % Time Line 
Contents 

3 def 
add_and_sum(x, y): 

4 1 36510 36510.0 79 .5 added = 
X + y 

5 1 9425 9425.0 20.5 summed = 
added .sum(axis=1) 

6 1 1 1.0 0.0 return 
Summed 


这 个 结果 束 容 易 理 解 多 了 。 这 里 我 们 测试 的 
只 是 add_and_sum 这 一 个 芳 数 。 上 面 那 个 模块 中 还 
有 一 个 call_function 函 数 ， 我 们 可 以 结合 
add_and_sum 一 起 测试 ， 于 是 最 终 的 测试 命令 吏 成 
本 平面 这 小 伴 手 ， 


In [574]: %lprun -f add_and sum -f call_function 
call_function( ) 

Timer unit: 1e-06 s 

File: book_scripts/prof_mod.py 

Function: add_ and sum at line 3 

Total time: 0.005526 s 

Line # Hits Time Per Hit % Time Line Contents 


3 def 
add_and_sum(x, y): 
4 1 4375 4375.0 79.2 added = x 
+ y 
5 1 1149 1149.0 20.8 summed = 
added .sum(axis=1) 
6 1 2 2.0 0.0 return 
Summed 
File: book_ scripts/prof_mod.py 
Function: call function at line 8 
Total time: 0.121016 s 
Line # Hits Time Per Hit % Time Line 
Contents 
8 def 
call_ function(): 
9 1 57169 57169.0 47 .2 X = 
randn(1000, 1000) 
10 1 58304 58304.0 48.2 y = 
randn(1000, 1000) 
11 1 5543 5543.0 4.6 return 


add_and_sum(x, y) 


通常 ， 我 会 用 %prun (cProfile) 做 “宏观 的 ”性 
能 分 析 ， 而 用 %lprun (line_profiler) 做 “微观 
的 ”性 能 分 析 。 这 两 个 工具 都 很 有 必要 了 解 一 下 。 


注意 :， 在 使 用 %lprun 时 ， 之 所 以 必须 显 式 指 
明生 测 弃 的 国 数 名 ， 有 征 因 为 “跟踪 ?每 一 行 代 码 的 
执行 时 间 所 需 的 开销 很 大 。 对 不 感 兴趣 的 函数 进 
行 女 踩 将 会 对 性 能 分 析 结 琳 造 成 显 闭 的 影响 。 


详 注 15: 第 一 ，s 不 一 定 行 ， 看 提示 ， 要 用 c; 第 
二 ， 这 个 s 实 际 上 是 step into。 
译注 16: 也 驶 是 step over 。 


译注 17: 作者 在 这 里 的 意思 是 这 种 断 点 比较 随 
便 ， 是 硬 编码 的 。 


IPython HTML Notebook 


2011 年 ， 由 Brian Granger 领 导 的 IPython 团 队 
开始 开发 一 种 基于 Web 拉 术 的 交互 式 计算 文档 格 
式 ， 即 IPython Notebook ( 见 图 3-4) 。 目 前 ， 它 已 
经 成 为 一 种 非常 梭 的 交互 式 计算 工具 ， 同 时 还 古 
科研 和 教学 的 一 种 理想 媒介 。 本 书 中 大 部 分 示例 
都 是 用 它 编写 的 .我 强烈 建议 你 也 试 试 。 


< 9 1270013 85d5e-d135-447b-g59d-a494Bec3F77t TC 
TPry]: Te NotebookEx Lastsaved: Jul26 1:06 PM 


| Fie Edt View Insert Cell Kernel Help 


四 -上 多 上 4 浙 人 + 不 主 > Code 里 


In [1]: import numpy a 
import pan i as 0 
print ‘Hello world!’ 


Hello world! 


: tips = pd,read._csv(’'book scripts/chQB/tips,csy’ 
tips.haad() 


In [4] 
fi 


Qut[4]; <m 


图 3-4: IPython Notebook 


它 有 一 种 基于 JSON 的 文档 格式 .ipynb， 使 你 
可 以 轻松 分 享 代码 、 输 出 结果 以 及 图 片 等 内 容 。 
目前 在 各 种 Python 人 研讨 会 上 ， 一 种 流行 的 演示 手 
段 束 是 使 用 IPython Notebook， 然 后 再 将 .ipynb 文 
件 发 布 到 网 上 以 供 所 有 人 查阅 。 


IPython Notebook 应 用 程序 是 一 个 运行 于 命令 
行 上 的 轻 量 级 服务 器 进程 。 执 行 下 面 这 条 命令 即 
可 局 动 : 


$ ipython notebook --pylab=inline 

[NotebookApp] Using existing profile dir: 

u'/home/wesm/ .config/ipython/profile _ default' [NotebookApp] 
Serving notebooks from /home/wesm/book_scripts 

[NotebookApp] The IPython Notebook is running at: 
http://127.0.0.1:8888/ 

[NotebookApp] Use Control-C to stop this server and shut down 
all kernels. 


在 大 多 数 平台 上 ， 你 的 首选 Web 浏 览 器 会 
动 打开 Notebook 的 仪表 板 (dashboard) 。 有 时 你 
可 能 需要 手工 打开 上 面 列 出 的 那个 URL。 你 可 以 
在 这 里 创建 一 个 新 的 记事 本 并 开始 研究 工作 。 


由 于 我 们 是 在 一 个 Web 浏 览 器 中 使 用 Notebook 

的 ， 因 此 该 服务 右 进 程 可 以 运行 于 任何 地 方 。 你 
甚至 可 以 连接 到 那些 运行 在 云 服务 (如 Amazon 
EC2) 上 的 Notebook 。 直 到 写作 本 书 时 为 止 ， 一 个 
狐 的 名 为 NotebookCloud 

(http://notebookcloud.appspot.com) 的 项 目 已 经 诞 
生 了 ， 它 可 以 轻松 地 在 Amazon EC2 上 局 动 记事 
本 o 


利用 IPython 提 高 代码 开发 效率 的 几 操 
提示 


为 了 在 IPython 中 开发 、 调 试 代码 ， 并 充分 发 
挥 其 交互 优势 ， 许 多 用 户 都 需要 转换 一 下 工作 模 
式 。 像 编码 风格 以 及 一 些 操 作 细 证 可 能 需要 做 一 


些 调整 。 


束 这 点 来 说 ， 本 万 的 内 容 更 像 古 杞 术 而 非 科 
学 ， 你 需要 有 一 些 编程 经 验 才 好 判断 其 能 否 提高 
你 的 工作 效率 。 总 之 ， 你 得 让 你 的 代码 结构 更 易 
于 交互 且 结 果 更 易于 查看 。 我 发 现 通过 IPython 设 
计 的 软件 要 比 独立 的 命令 行 应 用 程序 好 用 。 当 你 
执行 目 己 或 别人 在 儿 个 月 甚至 几 年 表 编 写 的 代码 
时 出 现 了 计 放 误 ， 想 找 出 问题 所 在 时 ，IPython 的 交 

互 性 束 会 变 得 非常 重要 。 


重 狐 加 载 模块 依赖 项 


在 Python 中 ， 当 你 输入 import some_lib 时 ， 
some_lib 中 的 代码 就 会 修 执 行 ， 且 其 中 所 有 的 变 
量 、 函 数 和 引入 项 都 会 个 祭 存 在 一 个 新 建 的 

some_] 训 模块 命名 空间 中 。 下 次 你 再 输入 import 
some_lib 时 ， 束 会 得 到 这 个 模块 命名 空间 的 一 个 


引用 。 而 这 对 于 IPython 的 交互 式 代 码 开 发 模式 就 
会 有 一 个 问题 ， 比 如 说 ， 用 %run 执 行 的 某 段 脚本 
中 牵扯 到 了 某 个 刚刚 做 了 修改 的 模块 。 假 设 我 们 
有 一 个 test_script.py 文 件 ， 其 中 有 下 列 代 码 : 


import some_1ib 
X = 5 


y = [1, 2, 3, 4] 
result = some_ lib.get _ answer(x, y) 


如 果 在 执行 了 %run test_script.py 之 后 义 对 
some_]lib.py 进 行 了 修改 ， 下 次 再 执行 %run 
test_script.py 时 将 仍然 会 使 用 老 版 的 some_lib。 其 
原因 丈 是 Python 时 “一 次 加 载 ?模块 系统 。 这 个 行 
为 不 同 于 其 他 一 些 数据 分 析 环 境 (如 MATLAB， 
它 会 自动 应 用 代码 修改 二 ) 。 为 了 解决 这 个 问 
题 ， 你 有 两 个 办 法 可 用 。 第 一 个 办 法 是 使 用 
Python 内 置 的 reload 函 效 。 将 test_script.py 修 改 成 
下 面 这 个 样子 : 


Import some_1ib 
reload(some_1ib) 


X = 5 
y = [1，2，3，4j 
result = Some_]ib ,get_answer(Xx，Yy) 


这 样 束 体 证 每 次 执行 test_script.py 时 都 能 用 上 
最 新 版 的 some_lib 了 。 显然 ， 当 依赖 变 得 更 强 
上 时， 就 需要 在 很 多 地 方 插入 很 多 的 reload。 对 于 这 


个 问题 ，IPython 提 供 了 一 个 特殊 的 dreload 函 数 

( 非 魔 术 函 数 ) 来 解决 模块 的 “深度 ”递归 ) 重 
加 载 。 如 果 执 行 import some_lib 之 后 再 输入 
dreload(some_lib)， 则 它 会 等 试 重新 加 载 sSome_lib 
及 其 所 有 的 依赖 项 。 壮 憾 的 是 ， 这 个 办 法 也 不 是 
但 是 如 果真 的 不 行 了 ， 重 启 IPython 束 行 


代码 设计 提示 


这 个 问题 不 太 好 讲 ， 但 我 在 日 常 工作 中 确实 
发 现 了 一 些 高 层次 的 原则 。 


保留 有 意义 的 对 象 和 数据 


人 们 一 般 不 会 在 命令 行 上 编写 下 面 这 样 的 程 
亨 : 


from my_functions import g 


def f(x, y): 
return g(x + y) 


def main(): 
X = 6 
yY = 7.5 
result = X + y 


if name == ' _ main _': 
main() 


如 采 我 们 在 IPython 中 执行 这 段 代 码 的 话 会 出 
现 什 么 问题 ? 我 们 在 IPython shell 中 将 访问 不 到 任 
何 结 有 末 以 及 main 函 数 中 定义 的 对 象 。 好 点 的 办 法 
征 直 接 在 该 模块 的 全 局 命名 空间 中 执行 main 中 的 
代码 (如 果 你 希望 该 模块 是 可 引入 的 ， 也 可 以 将 
这 些 代码 放 在 if ”name ”==' main ': 块 中 ) 。 
这 样 ， 当 你 %run 这 段 代 码 时 ， 束 能 看 到 main 中 害 
义 的 所 有 变量 了 。 对 这 个 简单 的 例子 而 言 ， 这 个 
原则 意义 不 大 ， 但 对 本 书后 面 将 要 介绍 的 那些 针 
SS 000 问题 而 言 束 很 重要 


局 平 结构 要 比 垦 侠 结 构 好 


深度 舱 套 的 代码 让 我 想到 了 详 惫 。 在 测试 或 
调试 函数 时 ， 你 要 把 这 个 详 爷 刊 多 少 层 才能 找到 
感 兴趣 的 代码 ?“ 届 平 结构 要 比 藤 俭 结 构 好 ”的 思 
想来 自 "Zen of Python" 18， 它 对 交互 式 的 代码 
开发 模式 同样 有 效 。 编 写 函 数 和 类 时 应 尽量 注意 
低 耦 合 和 模块 化 ， 这 样 可 以 使 它们 更 易于 测试 
和 、 调试 和 交互 陈 使 


无 惧 大 文件 


如 果 曾 经 学 过 Java (或 其 他 类 似 的 语言 ) ， 
可 能 会 有 人 告诉 你 要 “尽量 你 持 文件 的 小 型 化 ”。 
在 许多 语言 中 ， 这 都 是 一 个 不 铺 的 建议 。 长 度 太 
长 通 间 是 一 种 不 好 的 “ 具 代 码 ”， 和 意味 着 需要 重 构 
或 重组 。 然 而 在 IPython 中 开发 代码 上 时， 处理 10 个 
小 的 (但 互相 关联 的 ) 文件 (比如 都 低 于 100 行 ) 
可 能 会 让 你 更 为 头疼 ， 还 不 如 直接 一 个 大 文件 或 
两 三 个 大 点 的 文件 来 得 痛快 。 更 少 的 文件 意味 着 
需要 重 狐 加 载 的 模块 更 少 ， 编 辑 时 需要 在 各 个 文 
件 之 回 的 跳 转 次 数 也 更 少 。 我 发 现 维护 更 大 的 
(具有 高 内 聚 度 的 ) 模块 会 更 实用 也 更 具有 
Python 特 点 。 在 解决 完 问 题 之 后 ， 有 了 时 将 大 文件 
拆 分 成 小 文件 会 更 好 。 


显然 ， 我 并 不 建议 将 此 原则 极端 化 ， 那 可 能 
会 让 你 将 所 有 代码 都 放 到 一 个 巨大 的 文件 里 面 。 
对 一 个 大 型 代码 库 而 言 ， 要 找到 一 种 合乎 逻辑 的 
模块 / 包 染 构 需 要 人 论点 工夫 ， 但 这 对 团队 工作 非常 
重要 。 每 个 模块 部 应 该 具有 足够 高 的 内 聚 度 ， 而 
0 0 


注 1: 由 于 一 个 模块 或 包 可 能 会 在 一 个 程序 中 的 不 
同位 置 多 次 引入 ， 所 以 Python 会 在 第 一 次 引入 这 
些 模块 时 对 其 进行 缓存 ， 而 不 是 每 次 都 执行 模块 


中 的 代码 。 否 则 ， 应 用 程序 的 模块 化 和 良好 的 代 
码 组 织 等 手段 就 达 不 到 高 效 的 日 的 了 。 

译注 18: 这 是 Tim Peters 2004 年 写 的 一 首 “ 诗 ”， 执 
行 "import this" 束 能 看 天 。 有 网 民 将 其 翻 详 成 三 字 
经 的 形式 (又 名 “ 蛇 宗 三 字 经 >) 。 另 外 ， 有 兴趣 
的 话 ， 可 以 看 看 this 的 源 代 码 。 


高 级 IPython 功 能 
让 你 的 类 对 IPython 更 加 友好 


IPython 力 求 为 各 种 对 象 主 现 一 个 友好 的 字符 
串 表 示 。 对 于 许多 对 象 (如 字典 、 列 表 和 元 组 
等 ) ， 内 置 的 pprint 模 块 就 能 给 出 漂亮 的 格式 。 但 
侠 对 于 你 目 己 定 义 的 那些 类 ， 吏 必须 目 己 生成 所 
J 。 假设 我 们 有 下 面 这 个 简单 的 


class Message : 
def _ init (self，msdgd): 
self.msg = msg 


如 琳 像 下 面 这 样 写 ， 你 束 会 失望 地 发 现 这 个 
关 的 默认 输出 形式 非常 不 好 看 : 


In [576]: x = Message('I have a Secret ' ) 


In [577]: x 
Out[577]: <_ main__.Message instance at Ox60ebbd8> 


zp 


由 于 IPython 会 获取 _repr 方法 返回 的 字符 
串 〈 有 具体 办 法 是 output=repr(ob)) ， 并 将 其 显示 
到 控制 台 上 。 因 些 ， 我 们 可 以 为 上 面 那 个 类 添加 
| 人 简单 的 _repr 方法 以 得 到 一 个 更 有 意义 的 
输出 形式 : 


class Message: 
def _ init (self, msg): 
self.msg = msg 


def __repr__(self): 
return 'Message: %s' % self.msg 


In [579]: x = Message('I have a secret') 


In [580]: x 
Out[580]: Message: I have a secret 


个 性 化 和 配置 


IPython shell 在 外 观 (如 颜色 、 提 示 符 、 行 间 
距 等 ) 和 行为 方面 的 大 部 分 内 容 都 是 可 以 进行 配 
置 的 。 下 面 是 能 够 通过 配置 做 的 部 分 事情 : 


:修改 颜色 方案 。 
修改 输入 输出 提示 和 从 。 


去掉 Out 提 示 符 跟 下 一 个 In 提 示 符 之 间 的 空 
行 。 

:执行 任意 Python 语 句 。 这 些 语句 可 以 用 于 引 
入 所 有 和 常用 的 东西 ， 还 可 以 做 一 些 你 希望 每 次 局 
动 IPython 都 发 生 的 事情 。 


.局 用 IPython 扩 展 ， 如 line_profiler 中 的 魔术 命 


令 %]lprun。 


:定义 你 目 己 的 魔术 命令 或 系统 别名 。 


所 有 这 些 配 置 选 项 都 定义 在 一 个 叫做 
ipython_config.py 的 文件 中 ， 可 以 在 
~/.config/ipython/ 目 录 (UNIX) 

和 %HOME%/.ipython/ 目 录 (Windows) 中 找到 。 
具体 的 主 目 冰 取决 于 你 的 系统 。 配 置信 息 是 基于 
寺 定 个 性 化 设置 的 。 一 般 来 说 ， 正 常 启 动 IPython 
将 会 加 载 默认 的 个 性 化 设置 (位 于 profile_default 
目录 中 ) 。 因 此 ， 在 我 的 Linux 系 统 中 ， 默 认 
IPython 配 置 文件 的 完整 路 径 是 : 


/home/wesm/ .config/ipython/profile default/ipython_config.py 


这 里 我 束 不 对 该 文件 的 内 容 作 庄 细 介绍 了 。 
因为 其 注释 已 经 说 明了 各 个 配置 项 的 功能 ， 各 位 
读 首 完全 可 以 目 己 照看 做 。 还 有 一 个 很 实用 的 功 
能 是 拥有 多 个 个 性 化 设置 。 假 设 你 想 要 专 | ] 为 菏 
个 应 用 程序 或 项 目 量 身 定做 一 套 IPython 配 置 。 输 
入 下 面 这 样 的 命令 即 可 新 建 一 个 个 性 化 设置 : 


ipython profile create Secret_project 


然后 编辑 狐 建 的 这 个 profile_secret_project 目 
永 中 的 配置 文件 ， 再 用 下 面 这 种 方式 局 动 
IPython: 


$ ipython --profile=secret_project 

Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 
15:17:51) 

Type "copyright", "credits" or "license" for more 
information. 


EEO 0.13 -- An enhanced Interactive Python. 

-> Introduction and overview of IPython's features. 
es -> Quick reference. 
help -> Python's own help systenm. 
object? -> Details about 'object', use 'object??' for 
extra details. 


IPython profile: Secret_project 


In [1]: 


同样 ， 有 天 个 性 化 和 配置 方面 的 详细 信息 ， 
请 参考 IPython 的 在 线 文 档 。 


致谢 


本 章 的 部 分 内 容 由 IPython Development Team 
整理 。 我 对 他 们 创建 了 如 此 神奇 的 工具 而 感激 洲 


第 4 章 ，NumPy 基 础 : 数组 和 矢量 计算 


NumPy (Numerical Python 的 简称 ) 是 高 性 能 
科学 计算 和 效 据 分 析 的 基础 包 。 它 是 本 书 所 介绍 
局 级 工具 的 构建 基础 。 其 部 分 功能 如 


-ndarray， 一 个 具有 矢量 算术 运算 和 复杂 广播 
能 力 的 快速 旦 节省 空间 的 多 维 效 组 。 


用 于 对 整 组 数据 进行 快速 运算 的 标准 数学 辑 
数 (无 需 编写 循环 ) 。 


-用 于 读 写 磁盘 数据 的 工具 以 及 用 于 操作 内 存 
映 映 文件 的 工具 。 


线性 代数 、 随 机 数 生成 以 及 传 里 叶 变 换 功 


分 已 
月 已 “ 


:用 于 集成 由 C、C++、Fortran 等 语言 编写 的 
代码 的 工具 。 


最 后 一 点 也 是 从 生态 系统 角度 来 看 最 重要 的 
= 由 于 NumPy 提 供 了 一 上 人 徐 单 易 用 的 C 
API， 因 此 很 容易 将 数据 传递 给 由 低级 语言 编写 
的 外 部 库 ， 外 部 库 也 能 以 NumPy 数 组 的 形式 将 数 


据 人 返回 给 Python。 这 个 功能 使 Python 成 为 一 种 包 
疙 C/C++/Fortran 历 史 代 码 库 的 选择 ， 并 使 被 包 装 
库 拥 有 一 个 动态 的 、 昂 用 的 接口 。 


_NumPy 本 壬 并 没有 提供 多 么 高 级 的 数据 分 析 
功能 ， 理 解 NumPy 数 组 以 及 面 回 数组 的 计算 将 有 
助 于 你 更 加 高 效 地 使 用 诸如 pandas 之 类 的 工具 。 
如 末 你 是 Python 痢 手 ， 而 且 只 是 想 用 pandas 随 便 
处 理 一 下 数据 束 行 ， 那 束 跳 过 本 草 吧 ， 没关系 
的 。 更 多 NumPpy 局 级 功 外 能 (比如 广播 ， 请 参见 
第 12 章 


对 于 大 部 分 数据 分 析 应 用 而 言 ， 我 最 关注 的 
功能 主要 集中 在 : 


-用 于 数据 整理 和 消 理 、 子 集 构造 和 过 小 、 转 
换 等 快速 的 天 量化 数组 运算 。 


常用 的 数组 算法 ， 如 排序 、 唯 一 化 、 集 合 运 
算 等 。 


-局 戏 的 搬 述 统计 和 数据 聚合 /摘要 运算 。 


-用 于 异 构 数据 集 的 合并 /连接 运算 的 数据 对 齐 
和 关系 型 数据 运算 。 


.将 条 件 逻 辑 表述 为 数组 表达 式 (而 不 是 带 有 
if-elif-else 分 支 的 循环 ) 。 


数据 的 分 组 运算 ( 吧 合 、 转 换 、 函 数 应 用 
等 ) 。 第 5 革 将 对 此 进行 详细 讲解 。 


里 然 NumPy 提 供 了 这 些 功 能 的 计算 基础 ， 但 

你 可 能 还 是 想 将 pandas 作 为 数据 分 析 工 作 的 基础 

(尤其 是 对 于 结构 化 或 表格 化 数据 ) ， 因 为 它 提 

供 了 能 使 大 部 分 常见 数据 任务 变 得 非常 简 滞 的 让 

晤 局 级 接口 。pandas 还 提供 了 一 些 NumPy 所 没有 
的 更 加 领域 特定 的 功能 ， 如 时 间 序 列 处 理 等 。 


注意 : 在 本 章 以 及 本 书 中 ， 我 将 依照 标准 的 
NumPy 约 定 ， 即 总 是 使 用 import numpy as np。 当 
然 ， 你 也 可 以 为 了 不 写 np. 而 直接 在 代码 中 使 用 
from numpy import* ， 但 我 得 提醒 你 最 好 还 是 不 
要 养 成 这 样 的 坏 习 惯 。 


NumPy 的 ndarray: 一 种 多 维 效 组 对 有 象 


NumPy 最 重要 的 一 个 特点 吏 古 其 N 维 数组 对 象 
( 即 ndarray) ， 该 对 象 是 一 个 快速 而 灵活 的 大 数 
据 集 容 絮 。 你 可 以 利用 这 种 数组 对 整 块 数据 执行 
me 其 语法 跟 标 量 元 素 之 则 的 运算 一 
In [8]: data 
Out[8] : 


array([[ 0.9526, -0.246 ，-0.8856]， 
[ 0.5639, 0.2379, 0.910411]) 


In [9]: data * 10 In [10]: data + data 
Out[9] : Out[10] : 
array([[ 9.5256, -2.4601, -8.8565], array([[ 1.9051, -0.492 
，-1.7713], 

[ 5.6385, 2.3794, 9.104 ]]) [ 1.1277, 


0.4759, 1.8208]]) 


ndarray 是 一 个 通用 的 同 构 数 据 多 维 容器 ， 也 
束 古 婉 ， 其 中 的 所 有 元 取 公 须 是 相同 类 型 的 。 
个 数组 都 有 一 个 shape (一 个 表示 各 维度 大 小 的 元 
组 ) 和 一 个 dtype (一 个 用 于 说 明 数 组 数据 类 型 的 
对 象 ) : 
In [11]: data.shape 
Out[11]: (2, 3) 


In [12]: data.dtype 
Out[12]: dtype('float64') 


本 章 将 会 介绍 NumPy 数 组 的 基本 用 法 ， 这 对 
于 本 书后 面 各 革 的 理解 基本 够 用 。 虽 然 大 多 数 数 
据 分 析 工 作 不 需要 深入 理解 NumPy， 但 是 精通 面 
问 效 组 的 编程 和 思维 方式 生成 为 Python 科学 计算 
牛人 的 一 大 关键 步 又 。 


注意: ， 当 你 在 本 书 中 看 到 “数组 >”、“NumPy 数 
组 ”、"ndarray" 时 ， 基 本 上 都 指 的 是 同一 样 东西 ， 
Bndarray 对 和 象 。 


创建 ndarray 


创建 数组 最 们 单 的 办 法 就 古 使 用 array 范 数 。 
它 接 受 一 切 序 列 型 的 对 象 (包括 其 他 数组 ，， 然 
后 产生 一 个 痢 的 含有 传 入 数据 的 NumPy 数 组 。 以 
一 个 列表 的 转换 为 例 : 


In [13]: datal = [6, 7.5, 8, 0, 1] 
In [14]: arr1 = np.array(datal) 


In [15]: arr1 
Out[15]: array([ 6. ， 7.5, 8. , 0., 1，]) 


仍 套 序列 (比如 由 一 组 等 长 列表 组 成 的 列 
表 ) 将 会 被 转换 为 一 个 多 维 数 组 . 
In [16]: data2 = [[1, 2, 3, 4], [5, 6, 7, 8]] 


In [17]: arr2 = np,array(data2 ) 


In [18]: arr2 

Out [18] : 

array([[1, 2, 3, 4], 
[5, 6, 7, 8]1]) 


In [19]: arr2.ndim 
Out[19]: 2 


In [20]: arr2.shape 
Out[20]: (2, 4) 


除非 显 式 说 明 ( 稍 后 将 会 详细 介绍 ) ， 
np.array 会 笑 试 为 新 建 的 这 个 数组 推断 出 一 个 较为 
合适 的 数据 类 型 。 数 据 类 型 你 存在 一 个 特殊 的 
UY ° 比如 说 ， 在 上 面 的 两 个 例子 中 ， 我 
| : 


In [21]: arri.dtype 
Out[21]: dtype( 'float64 ' ) 


In [22]: arr2.dtype 
Out[22]: dtype('int64') 


除 np.array 之 外 ， 还 有 一 些 琅 数 也 可 以 新 建 数 

组 。 比 如 ，zeros 和 ones 分 别 可 以 创建 指定 长 度 或 
形状 的 全 0 或 全 1 数组 。empty 可 以 创建 一 个 没有 任 
何 具体 值 的 数组 。 要 用 这 些 方法 创建 多 维 数 组 ， 
只 需 传 入 一 个 表示 形状 的 元 组 即 可 : 

In [23]: np.zeros(10) 

Out[23]: array([ 0., 0., 0., 0., 0., 0,., 0,., 0., 0.,, 

9.]) 

In [24]: np.zeros((3, 6)) 


Out[24]: 
array([[ 0., 0., 0., 0., 0., 0.1], 


[ 0., 0., 0., 0., 0., 
[ 0., 0., 0., 0., 0.,, 
Nn 


©OO 


], 
:]]) 


In [25]: np. .empty( (2, 3， 2)) 
Out[25]: 
array([[[ 4.94065646e-324, 4.94065646e-324], 
[ 3.87491056e-297, 2.46845796e-130]， 
[ 4.94065646e-324, 4.94065646e-324]], 
[[ 1.90723115e+083, 5.73293533e-053]， 
[ -2.33568637e+124, -6.70608105e-0121], 
[ 4.42786966e+160, 1.27100354e+025]]]) 


警告 : 认为 np.empty 会 返回 全 全 0 数组 的 想 ei 
不 安全 的 。 很 多 情况 下 (如 前 所 示 ) ， 它 返回 的 
是 一 些 未 初始 化 的 垃圾 值 。 


arange 是 Python 内 置 久 数 range 的 数组 版 : 


In [26]: np.arange(15) 
Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 
11, 12, 13, 14]) 


表 4-1 列 出 了 一 些 数组 创建 函数 。 
关注 的 是 数 信 计 算 ， 因 此 ， 如 未 没有 有 特 另 | 指定 
数据 类 型 基本 都 是 float64 ( 浮 点 数 ) 。 


表 4-1: 数组 创建 函数 


函数 


array 


asarray 


arange 


说 明 
将 输入 数据 (列表 、 元 组 、 数 组 或 其 他 序列 类 型 ) 转换 为 
ndarray。 要 么 推断 出 dtype， 要 么 显 式 指 定 dtype。 默 认 直 接 复 


制 输入 数据 
将 输入 转换 为 ndarray， 如 果 输 入 本 身 就 是 一 个 ndarray 就 不 进行 
复制 


类 似 于 内 置 的 range， 但 返回 的 是 一 个 ndarray 而 不 是 列表 


ones、ones_like 根据 指定 的 形状 和 dtype 创 建 一 个 全 1 数组 。ones_like 以 另 一 个 数 


组 为 参数 ， 并 根据 其 形状 和 dtype 创 建 一 个 全 1 数组 


zeros、 zeros_like 类 似 于 ones 和 ones_like， 只 不 过 产生 的 是 全 0 数组 而 已 


empty、empty_like ”创建 新 数组 ， 只 分 配 内 存 空 间 但 不 填充 任何 值 
仓 


eye、 identity 


1 建 一 个 正方 的 NxN 单 位 矩阵 (对 角 线 为 1， 其 余 为 0) 


ndarray 的 数据 类 型 


dtype (数据 类 型 ) 是 一 个 特殊 的 对 象 ， 它 含 
有 ndarray 将 一 块 内 存 解 释 为 特定 数据 类 型 所 需 的 


自 


百 v EN : 


In [27]: 
In [28]: 


In [29]: 
Out[29] : 


arri = np.array([1, 2, 3], dtype=np.float64) 
arr2 = np.array([1, 2, 3], dtype=np.int32) 


arri.dtype In [30]: arr2.dtype 
dtype( 'float64 ' ) Out[30]: dtype('int32') 


dtype 古 NumPy 如 此 强大 和 灵活 的 原因 之 一 。 
多 数 情况 下 ， 它 们 直接 映 映 人 到 相应 的 机 器 表示 ， 
这 使 得 “ 读 写 磁盘 上 的 二 进 制 数 据 流 ”以 及 “集成 低 
级 语言 代码 (如 C、Fortran) ”等 工作 变 得 更 加 简 


单 。 数 信 型 dtype 的 命名 方式 相同 : 一 个 类 型 名 

(如 float 或 int) ， 后 面 跟 一 个 用 于 表示 各 元 素 位 
长 的 数字 。 标准 的 双 精度 浮 点 值 《名 Python 中 的 
float 对 象 ) 需要 占用 8 字 节 ( 即 64 位 ) 。 因 此 ， 该 
类型 在 Nampy 中 就 记 人 tloat64 。 表 4-2 列 出 了 
NumPy 所 文 持 的 全 部 数据 类 型 。 


注意 : 记 不 
新 手 更 是 如 此 。 只 需 妥 知道 你 所 处 理 的 数据 
的 下 类 型， 复 效 、 整 效 、 布 尔 值 、 字 
符 串 ， 还 是 普通 的 Python 对 象 即 可 。 当 你 需要 控 
出 数据 在 月 在 和 左 表 中 的 存储 方式 时 其 是 对 
大 数据 集 ) ， 那 融 得 了 解 如 何 控制 存储 类 型 。 


表 4-2: NumPy 的 数据 类 型 


类 型 类 型 代码 ”说明 

int8、uint8 i1、ui 有 符号 和 无 符号 的 8 位 (1 个 字 节 ) 整 型 

int16、uint16 i2、u2 有 符号 和 无 符号 的 16 位 (2 个 字 节 ) 整 型 

int32、uint32 i4、u4 有 符号 和 无 符号 的 32 位 (4 个 字 节 ) 整 型 

int64、uint64 i8、u8 有 符号 和 无 符号 的 64 位 (8 个 字 节 ) 整 型 

float16 f2 半 精 度 浮 点 数 

float32 f4 或 f 标准 的 单 精度 浮 点 数 。 与 C 的 float 兼 容 

float64 f8 或 d 标准 的 双 精 度 浮 点 数 。 与 C 的 double 和 Python 
的 float 对 象 兼容 

float128 f16 或 g 扩展 精度 浮 点 数 

complex64、complex128、c8、c16、 ”分 别 用 两 个 32 位 、64 位 或 128 位 浮 点 数 表示 的 

complex256 €32 复数 


bool > 存储 True 和 False 值 的 布尔 类 型 


表 4-2: NumPy 的 数据 类 型 ( 续 ) 


类 型 类 型 代码 ”说明 

object O Python 对 象 类 型 

string_ 5 固定 长 度 的 字符 串 类 型 (每 个 字符 1 个 字 节 ) 。 
例如 ， 要 创建 一 个 长 度 为 10 的 字符 串 ， 应 使 用 
910 

unicode __ U 固定 长 度 的 unicode 类 型 ( 字 节 数 由 平台 决定 ) 。 


跟 字 符 串 的 定义 方式 一 样 (如 U10) 


你 可 以 通过 ndarray 的 astype 方 法 显 式 地 转换 其 
dtype: 


In [31]: arr = np.array([1, 2, 3, 4, 5]) 


In [32]: arr.dtype 
Out[32]: dtype('int64') 


In [33]: float_ arr = arr.astype(np.float64) 


In [34]: float_arr.dtype 
Out[34]: dtype('float64') 


”在 本 例 中 ， 整 数 补 转换 成 了 浮 点 数 。 如 雪 将 
浮 扩 数 转 换 成 整数 ， 则 小 数 部 分 将 会 修 截 断 : 
In [35]: arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) 
In [36]: arr 
Out[36]: array([ 3.7, -1.2, -2.6, 0.5, 12.9, 


10.1]) 


In [37]: arr.astype(np.int32) 
Out[37]: array([ 3, -1, -2, 0©0, 12, 10], dtype=int32) 


如 果 某 字符 串 数 组 表示 的 全 是 数 子 ， 也 可 以 
用 astype 将 其 转换 为 数值 形式 : 


In [38]: numeric_ strings = np.array(['1.25', '-9.6', '42 |]， 


dtype=np.string_) 


In [39]: numeric_strings.astype(float) 
Out[39]: array([ 1.25, -9.6 ， 42. 


如 采 转 换 过 程 因为 某 种 原因 而 失败 了 (比如 
某 个 不 能 被 转换 为 float64 的 字符 串 ) ， 就 会 引发 
一 个 TypeError。 看 到 了 吧 ， 我 比较 懒 ， 写 的 是 
float 而 不 是 np.float64;，NumPy 很 聪明 ， 它 会 将 
Python 类 型 映射 到 等 价 的 dtype 上 。 


效 组 的 dtype 还 有 万 外 一 个 用 法 : 


In [40]: int_array = np.arange(10) 


In [41]: calibers = np.array([.22, .270, .357, .380, .44, 
.50], dtype=np.float64) 


In [42]: int_array.astype(calibers.dtype) 
Out[42]: array([ 0., 1., 2., 3., 4., 
9.]) 


你 还 可 以 用 向 党 的 类 型 代码 来 表示 dtype: 


In [43]: empty_uint32 = np.empty(8, dtype='u4') 


5., 6., 7., 8., 


In [44]: empty_uint32 

Out[44] : 

array([ 9， 0, 65904672, 0, 64856792, 0, 
39438163,， 0], dtype=uint32) 


注意 : 调用 astype 无 论 如 何 都 会 创建 出 一 个 新 
的 数组 〈 原 始 数据 的 一 份 拷贝 ) ， 即 使 新 dtype 跟 
老 dtype 相 同 也 十 如 此 。 


敬告， 注意 ， 浮 点 数 (比如 float64 和 和 float32) 
只 能 表示 近似 的 分 数值 。 在 复杂 计算 中 ， 由 于 可 
能 会 积 票 一些 浮 点 稍 误 ， 因 此 比较 操作 只 能 在 一 
定 小 数位 以 内 有 鸡 。 
数组 和 标量 之 则 的 运算 

数组 很 重要 ， 因 为 它 使 你 不 用 编写 循环 即 可 
对 数据 执行 批量 运算 。 这 通 音 束 叫 做 天 量化 

(vectorization) 。 大 小 相等 的 数组 之 间 的 任何 算 

术 运 算 都 会 将 运算 应 用 到 元 又 级 : 


In [45]: arr = np.array([[1., 2., 3.], [4., 5., 6.|]]) 


In [46]: arr 


Out[46]: 
array([[ 1., 2., 3.], 
[ 4., 5., 6.]]) 
In [47]: arr * arr In [48]: arr - arr 
Out[47] : Out[48]: 
array([[ 1., 4 9.1], array([[ 0., 0., 0.1], 
[ 16., 25., 36.]]) [ 0., 0., 0.]]) 


同样 ， 数 组 与 标量 的 算术 运算 也 会 将 那个 标 
量 值 传播 到 各 个 元 系 : 


In [49]: 1 / arr In [50]: arr ** 0.5 


Out[49] : Out[50] : 
array([[ 1. ， 0.5 ; 0.3333], array([[ 1. 
1.4142, 1.7321], 

[ 0.25 ， 0.2 , 0.1667]]) [ 2. 
2.2361, 2.4495]]) 


不 同 大 小 的 数组 之 间 的 运算 叫做 广播 
(broadcasting) ， 我 们 将 在 第 12 章 中 对 其 进行 详 
0 本 书 的 内 容 不 需要 对 广播 机 制 有 多 深 的 
理解 。 


基本 的 么 引 和 切 厂 


NumPy 效 组 的 和 针 引 是 一 个 内 容 丰 曙 的 主题 ， 
因为 选取 数据 了 于 集 或 单个 元 素 的 方式 有 很 多 。 一 
维 数 组 很 何 早 。 从 表面 上 看 ， 它 们 跟 Python 列 表 
的 功能 老 不 多 : 


In [51]: arr = np.arange(10) 


In [52]: arr 
Out[52]: array([0，1，2，3，4，5，6，7，8，9]) 


In [53]: arr[5] 
Out[53]: 5 


In [54]: arr[5:8] 
Out[54]: array([5, 6, 7]) 


In [55]: arr[5:8] = 12 


In [56]: arr 
Out[56]: array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9]) 


如 上 所 示 ， 当 你 将 一 个 标量 值 赋值 给 一 个 切 

片 时 〈 如 arr[5:8]=12) ， 该 值 会 自动 传播 〈 也 就 说 
后 面 将 会 讲 到 的 “广播 ”) 到 整个 选区 。 跟 列表 最 
重要 的 区 别 在 于 ， 数 组 切片 是 原始 数组 的 视图 。 
这 意味 看 数据 不 会 锌 复制 ， 视 图 上 的 任何 修改 者 
会 二 接 反 映 到 源 效 组 上 : 

In [57]: arr_slice = arr[5:8] 

In [58]: arr_slice[1] = 12345 

In [59]: arr 

Out[59]: array([ 0, 1, 2, 3, 4, 12, 12345, 12, 

8, 9]) 

In [60]: arr_slice[:] = 64 


In [61]: arr 
Out[61]: array([ 0, 1, 2, 3, 4, 64, 64, 64, 8, 9]) 


如 果 你 刚 开 始 接触 NumPy， 可 能 会 对 此 感到 
惊讶 〈 尤 其 是 当 你 曾经 用 过 其 他 热 袁 于 复制 数组 
数据 的 编程 语言 ) 。 由 于 NumPy 的 设计 目的 是 处 
理 大 数据 ， 所 以 你 可 以 想象 一 下 ， 假 如 NumPy 坚 
持 要 将 数据 复制 来 复制 去 的 话 会 产生 何等 的 性 能 
和 内 存 问题 。 


转告 如 末 你 想 要 得 到 的 是 ndarray 切 厂 的 一 
份 副本 而 非 视图 ， 就 需要 显 式 地 进行 复制 操作 ， 
例如 arr[5:8].copyO 。 


对 于 高 维度 数组 ， 能 做 的 事情 更 多 。 在 一 个 
二 维 数组 中 ， 各 索引 位 置 上 的 元 妈 不 再 是 标量 而 


In [62]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]1]) 


In [63]: arr2d[2] 
Out[63]: array([7，8，9]) 


因此 ， 可 以 对 各 个 元 素 进 行 递 归 访 问 ， 但 这 
样 需要 做 的 事情 有 点 多 。 你 可 以 传 入 一 个 以 逗号 
隅 开 的 索引 列表 来 选取 单个 元 素 。 也 束 是 说 ， 下 
面 两 种 方式 是 等 价 的 : 


In [64]: arr2d[0][2] 
Out[64]: 3 


In [65]: arr2d[0，2] 
out[65]: 3 


独 4-1 训 明了 二 维 数组 的 索引 方式 。 


axis 1 
0 1 2 


图 4-1: NumPy 数 组 中 的 元 素 索 引 


在 多 维 数组 中 ， 如 宁 省 略 了 后 面 的 索引 ， 则 
返回 对 象 会 是 一 个 维度 低 一 点 的 ndarray ( 它 含有 
高 一 级 维度 上 的 所 有 数据 和 宇 !) 。 因 此 ， 在 2x2x3 
数组 arr3d 中 : 

In [66]: arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 
9], [10, 11, 12]]]) 


In [67]: arr3d 
Out[67]: 


array([[[ 1, 2, 3], 
[ 4, 5, 6]] 
[[ 7?, 8, 9], 
[190, 11, 12]]]) 


arr3d[0] 古 一 个 2x3 数 组 : 


In [68]: arr3d[0] 

Out[68] : 

array([[1, 2, 3], 
[4, 5, 61]) 


标量 值 和 数组 都 可 以 被 赋值 给 arr3d[0]j: 


In [69]: old values = arr3d[0].copy() 
In [70]: arr3d[0] = 42 
In [71]: arr3d 
Out[71]: 
array([[[42, 42, 42], 

[42, 42, 42]], 

[[ 7, 8, 9], 

[10, 11, 12]]]) 
In [72]: arr3d[0] = old values 


In [73]: arr3d 
Out[73]: 
array([[[ 1, 2 
[ 4, 5, 6]1], 
[[ 7， 8, 9], 
[10, 11, 121]1]) 


以 此 类 推 ，arr3d[10] 可 以 访问 索引 以 (10) 开 
头 的 那些 值 (以 一 维 数 组 的 形式 返回 ) : 


In [74]: arr3d[1, 0] 
Out[74]: array([7, 8, 9]) 


主意 ， 在 上 面 所 有 这 些 选 取 数 组 子 集 的 例子 
i 履 间 的 玫 王 是 视图 


切 厂 索引 


ndarray 有 的 切 厂 语法 跟 Python 列 表 这 样 的 一 维 
对 象 差 不 多 : 


In [75]: arr[1:6] 
Out[75]: array([ 1, 2， 3, 4, 64]) 


高 维度 对 象 的 花样 更 多 ， 你 可 以 在 一 个 或 多 
个 轴 上 进行 切 斤 ， 也 可 以 跟 整 数 索 引 宴 合 使 用 。 
对 于 上 面 那个 二 维 数组 arr2d， 其 切片 方式 稍 显 不 
同 : 


In [76]: arr2d In [77]: arr2d[:2] 

Out[76]: Out[77]: 

array([[1, 2, 3], array([[1, 2, 3], 
[4, 5, 6], [4, 5, 6]]) 
[7, 8, 91]) 


可 以 看 出 ， 它 是 沿 着 第 0 轴 ( 即 第 一 个 轴 ) 切 
厂 的 。 也 整 是 说 ， 切 片 古 沿 看 一 个 轴 同 选取 元 系 
i 0 
引 那样 : 


In [78]: arr2d[:2, 1:] 

Out[78]: 

array([[2, 3], 
[5，6]]) 


像 这 样 进行 切 厂 时 ， 只 能 得 到 相同 维 数 的 数 
组 人 视图。 通过 将 整数 么 引 和 切片 混合 ， 可 以 得 到 
低 维度 的 切 搬 : 


In [79]: arr2d[1, :2] In [80]: arr2d[2, :1] 
Out[79]: array([4, 5]) Out[80]: array([7]) 


图 4-2 对 此 进行 了 说 明 。 注 意 ,“ 只 有 冒号 " 表 
未 选取 整个 币 ， 因 此 你 可 以 像 下 面 这 样 只 对 高 维 
轴 进 行 切 请: 
In [81]: arr2d[L:，:1] 
Out[81] : 
array([[1], 
[4], 
[7]]) 


目 伏 ， 对 切 斤 才 达 却 的 赋值 操作 也 会 极 扩 散 
到 整个 选区 .: 


In [82]: arr2d[:2, 1:] = 0 
万/ 刑 江 > 
布尔 型 系 引 


来 看 这 样 一 个 例子 ， 假 设 我 们 有 一 个 用 于 存 
储 数 据 的 数组 以 及 一 个 存储 姓名 的 数组 (含有 重 
复 项 ) 。 在 这 里 ， 我 将 使 用 numpyrandom 中 的 
randn 了 芳 数 生成 一 些 正 态 分 布 的 随机 数据 : 


In [83]: names = np.array(['Bob', 'Joe', 'Will', "Bob '， 

'Will', 'Joe', "Joe ']) 

In [84]: data = randn(7, 4) 

In [85]: names 

Out[85]: 

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'l], 
dtype="'|S4') 


In [86]: data 
Out[86]: 


array([[-0.048 ， 0.5433, -0.2349, 1.2792] ， 
[-0.268 ， 0.5465, 0.0939，-2.0445]， 
[-0.047 ，-2.026 ， 0.7719, 0.3103] ， 
[ 2.1452, 0.8799, -0.0523, 0.06721] ， 
[-1.0023, -0.1698, 1.1503, 1.7289|], 
[ 0.1913, 0.4544, 0.4519, 0.5535], 

[ 0.5994, 0.8174, -0.9297, -1.2564]]) 

Expression Shape 

轩 arr[:2, 1:] ( 1 

arr[2] (3,) 

arr[2,:] (3,) 

rT | (1，3) 

国 : arr[:，:2] (3，2) 

arTr[1，:2] (2，) 

arr[1:2，:2] (1 2) 


网 
人 人 
J 


二 维 数组 切片 


假设 每 个 名 宇都 对 应 data 数 组 中 的 一 行 ， 而 我 
们 想 要 选 出 对 应 于 和 名字 "Bob" 的 所 有 行 。 跟 算术 运 
算 一 样 ， 数 组 的 比较 运算 (如 ==) 也 是 矢量 化 
的 。 因 此 ， 对 names 和 字符 串 "Bob" 的 比较 运算 将 
会 产生 一 个 布尔 型 数组 : 


In [87]: names == 'Bob' 
Out[87]: array([ True, False, False, True, False, False, 
False], dtype=bool) 


这 个 布尔 型 数组 可 用 于 效 组 索引 : 


In [88]: data[lnames == "Bob |] 

Out[88]: 

array([[-0.048 , 0.5433, -0.2349, 1.2792], 
[ 2.1452, 0.8799, -0.0523, 0.0672]]) 


布尔 型 数组 的 长 度 必须 跟 补 索引 的 轴 长 度 一 
任 。 此 外 ， 还 可 以 将 布尔 型 数组 跟 切 片 、 整 数 
0 


In [89]: data[names == 'Bob', 2:] 

Out[89] : 

array([[-0.2349, 1.2792], 
[-0.0523, 0.0672]]) 


In [90]: data[names == 'Bob', 3] 
Out[90]: array([ 1.2792, 0.0672]) 


要 远 择 除 "Bob" 以 外 的 其 他 值 ， 既 可 以 使 用 不 
等 于 符号 (!=) ， 也 可 以 通过 人 负 号 (一 ) 对 条 件 
进行 否定 : 


In [91]: names != 'Bob' 
Out[91]: array([False, True, True, False, True, True, Truel], 
dtype=boo1) 


In [92]: data[-(names == 'Bob')] 

Out[92]: 

array([[-0.268 , 0.5465, 0.0939, -2.0445], 
[-0.047 ,， -2.026 ， 0.7719, 0.3103], 


[-1.0023, -0.1698, 1.1503， 1.7289], 
[ 0.1913, 0.4544, 0.4519, 0.5535], 
[ 0.5994, 0.8174, -0.9297, -1.2564]]) 


选取 这 三 个 名 字 中 的 两 个 需要 组 合 应 用 多 个 
AT/ A 
布尔 条 件 ， 使 用 & (和 ) 、| (或 ) 之 类 的 布尔 算 
> \ 一心 
In [93]: mask = (names == 'Bob') | (names == 'Will') 
In [94]: mask 
Out[94]: array([True, False, True, True, True, False, Falsel], 
dtype=boo1) 
In [95]: data[mask] 
Out[95]: 
array([[-0.048 , 0.5433, -0.2349, 1.2792], 
0.047 ， -2.026 ， 0.7719, 0.3103], 


[- 
[ 2.1452, 0.8799, -0.0523, 0.0672], 
[-1.0023, -0.1698, 1.1503, 1.7289]]) 


通过 布尔 型 宗 引 选取 数组 中 的 数据 ， 将 忆 是 
ee 
中 o 


警告: Python 关键 字 and 和 or 在 布尔 型 数组 中 


通过 布尔 型 数组 设置 值 生 一 种 经 常用 到 的 手 
段 。 广 了 将 qata 中 的 所 有 负 全 都 设置 为 0， 我 们 只 


后 豆 
Ti 


In [96]: data[data < 0] = 0 


In [97]: data 


Out[97] : 

array([[ 0 ， 0,.5433， 0， ， 1.2792], 
[ 9. ， 0.5465, 0.0939, 0. ] ， 
[ 9， ， 0. ， 0.7719, 0.3103], 
[ 2.1452, 0.8799, ©0. ， 0.0672], 
[ 9. ， 0. ， 1.1503, 1.7289] ， 
[ 0.1913, 0.4544, 0.4519, 0.5535], 
[ 0.5994, 0.8174, 0， ， 0. ]]) 


通过 一 维 布尔 数组 设 管 整 行 或 列 的 值 也 很 何 
单 : 


In [98]: data[names != 'Joe'] = 7 
In [99]: data 
Out[99] : 
array([[ 7. ， 7 局 ; 7 ], 
[ 09. ， 0.5465, 0.0939, 0 ] ， 
[ 7. ， 7 / 7， 7 ]， 
[ 7. ， 7 / 7， 7 ]， 
[ 7. 四 ， 了 ， a7 ] ， 
[ 0.1913, 0.4544, 0.4519, 0.5535], 
[ 0.5994, 0.8174, 0. ， 0. ]]) 
二 
化 式 索 引 


花 式 索 引 (Fancy indexing) 是 一 个 NumPy 术 
语 ， 它 指 的 是 利用 整数 数组 进行 索引 。 假 设 我 们 
有 一 个 8x4 数 组 : 


In [100]: arr = np.empty((8, 4)) 


In [101]: for i in range(8): 
Re arr[i] = i 


In [102]: arr 
Out[102]: 


array([[ 0., 0.，0.，0.|]， 
Ei hal, 
[2 
[3 
[ 4., 4., 4., 4.], 
[ 5., 5., 5., 5.], 
[ 6., 6., 6., 6.], 
[ i yp Ti 7 


为 了 以 特定 顺序 选取 行 子 集 ， 只 需 传 入 一 个 
用 于 指定 顺序 的 整数 列表 或 ndarray 即 可 : 


In [103]: arr[[4，3，0，6]] 


Out[103] : 

array([[ 4., 4., 4., 4.1], 
[93 3 Bur Gl; 
[ 0., 0., 0., 0.], 
[6., 6., 6., 6.]]) 


这 上 段 代码 确实 达到 我 们 的 要 求 了 ! 使 用 负数 
索引 将 会 从 末尾 开始 选取 行 : 


In [104]: arr[[-3, -5, -7]] 


Out[104]: 

array([[ 5., 5., 5., 5.1], 
[ 3., 3., 3 3 1]; 
[ 1., 1 1.1]) 


一 次 传 入 多 个 索引 数组 会 有 一 后 特 别 。 它 返 
回 的 是 一 个 一 维 数组 ， 其 中 的 元 又 对 应 各 个 系 3 引 
元 组 : 


# 有 关 reshape 的 知识 将 在 第 12 章 中 讲解 
In [105]: arr = np.arange(32).reshape((8, 4)) 


In [106]: arr 
Out[106]: 


array([[ 9，1，2，3]， 
[ 4, 5， 6, 7], 
[ 8, 9, 10, 11], 
[12, 13, 14, 15], 
[16, 17, 18, 19], 
[20, 21, 22, 23], 
[24, 25, 26, 27], 
[28, 29, 30, 31]]) 


In [197]: arr[[1i, 5, 7, 2], [06, 3, 1, 2]] 
Out[107]: array([ 4, 23, 29, 10]) 


我 们 来 看 看 具体 是 怎么 一 回 事 。 最 终 选 出 的 
是 元 素 (1,.0)、(5,3)、(7,D 和 (2,2)。 这 个 花 式 索引 的 
行为 可 能 会 跟 某 些 用 户 的 预期 不 一 样 (包括 我 在 
内 ) ， 选 取 和 矩阵 的 行列 子 集 应 该 是 矩形 区 域 的 形 
式 才 对 。 下 面 是 得 到 该 结果 的 一 个 办 法 : 


in [108]: arr[f[1i, 5, 7, 2]][:, [0, 3, 1, 2] 
out[108] : 
array([[ 4, 7, 5, 6], 

[20, 23,21, 22]，, 

[28, 31, 29, 30], 

[ 8, 11, 9, 10]]) 


另外 一 个 办 法 是 使 用 np.ix_ 函 数 ， 它 可 以 将 两 
索引 九 : 


In [109]: arr[np.Ix_([1，5，7，2]，[0，3，1，2])j 
Out[109] : 
array([[ 4, 7, 5, 6], 

[20, 23,21, 22], 

[28, 31, 29, 30], 

[ 8, 11, 9, 10]]) 


记 住 ， 伦 陈 索 引 跟 切 斤 不 一 样 ， 它 总 是 将 数 
据 复制 到 新 数组 中 。 


效 组 拉 置 和 轴 对 换 


转 置 (transpose) 是 重 塑 的 一 种 特殊 形式 ， 它 
返回 的 是 源 数 据 的 视图 (不 会 进行 任何 复制 操 
本 数组 不 仅 有 transpose 方 法 ， 还 有 一 个 特殊 的 
工 届 性 : 


In [110]: arr = np.arange(15).reshape((3, 5)) 


In [111]: arr 

Out[111] : 

array([[ 9, 1, 2, 3, 4], 
[ 5, 6, 7, 8, 9], 
[10, 11, 12, 13, 14]]) 

In [112]: arr.T 


Out[112]: 

array([[ 0 5, 10], 
[ 1 6, 11], 
[ 2, 7, 12], 
[ 3 8, 13], 
[ 4, 9, 14]]) 


在 进行 窍 阵 计算 时 ， 经 贡 需 要 用 到 该 操作 ， 
比如 利用 np.dot 计 算 和 矩阵 内 积 X1X: 


In [113]: arr = np.random.randn(6, 3) 


In [114]: np.dot(arr.T, arr) 

Out[114]: 

array([[ 2.584 ， 1.8753, 0.8888], 
[ 1.8753, 6.6636, 0.3884], 
[ 0.8888, 0.3884, 3.9781]]) 


对 于 高 维 数组 ，transpose 需 要 得 到 一 个 由 轴 编 
0 (比较 费 脑 
A 


In [115]: arr = np.arange(16).reshape((2, 2, 4)) 


In [116]: arr 


Out[116]: 
array([[[ 0, 1, 2, 3], 
E*4, 5» 6;° 7]; 
[[ 8, 9, 10, 11], 
[12, 13, 14, 15]]]) 
In [117]: arr.transpose((1, 0, 2)) 
Out[117]: 
array([[[ 0, 1, 2, 3], 
[ 8, 9, 10, 11]], 
[[ 4, 5, 6, 7], 
[12, 13, 14, 15]]]) 


简单 的 转 置 可 以 使 用 .T， 它 其 实 就 是 进行 轴 
对 换 而 已 。 ndarray 个 有 一 个 swapaxes 方 法 ， 它 需 
要 接受 一 对 轴 编 号 : 


In [118]: arr 

Out[118] : 

array([[[ 9，1，2， 3], 
[ 4, 5, 6, 7]], 


[[ 8, 9, 10, 11], 
[12, 13, 14, 15]]]) 
In [119]: arr.swapaxes(1, 2) 


Out[119]: 

array([[[ 0, 4], 
[ 1, 5], 
[ 2, 6], 
[ 3, 7]]， 


[[ 8, 12], 


[ 9, 13], 
[10, 14], 
[11，15]]] ) 


swapaxes 也 是 返回 源 数据 的 视图 (不 会 进行 
任何 复制 操作 ) 。 


译 广 1: 括号 外 面 的 “维度 ”是 一 维 、 二 维 、 二 维 、 
四 维 之 类 的 意思 ， 而 括号 里 面 的 应 该 理解 
为 “ 币 ”*”。 也 就 古 说 ， 这 里 指 的 是 “返回 的 低 维 数组 
人 台 有 原始 高 维 数组 某 条 轴 上 的 所 有 数据 ”。 


通用 萃 数 :快速 的 元 系 级 数组 列 交 


通用 函数 ( 即 ufunc) 是 一 种 对 ndarray 中 的 数 
据 执行 元 素 级 运算 的 画 数 。 你 可 以 将 其 看 做 简单 
函数 (接受 一 个 或 多 个 标量 值 ， 并 产生 一 个 或 多 
个 标量 值 ) 的 矢量 化 包装 器 。 

许多 ufunc 都 是 简单 的 元 素 级 变 体 ， 如 sqrt 和 
expb: 


In [120]: arr = np.arange(10) 


In [121]: np.sqrt(arr) 


Out[121] : 
array([ 0. ， 1. ， 1.4142, 1.7321, 2. , 2.2361, 
2.4495, 
2.6458, 2.8284， 3. ] ) 
In [122]: np.exp(arr) 
Out[122] : 
array([ 1. , 2.7183, 7.3891, 20.0855, 
54.5982, 
148 .4132， 403 .4288， 1096.6332， 2980 .958 ， 


8103.0839]) 


这 些 都 是 一 元 (unary) ufunc。 男 外 一 些 (如 
add 或 maximum) 接受 2 个 数组 (因此 也 叫 二 元 
(binary) ufunc) ， 并 返回 一 个 结果 数组 : 


In [123]: x = randn(8) 


In [124]: y = randn(8) 


In [125]: x 

Out [125]: 

array([ 0.0749, 0.0974, 0.2002, -0.2551, 0.4655, 0.9222, 
0.446 ， -0.9337]) 


In [126]: y 

Out[126]: 

array([ 0.267 , -1.1131, -0.3361, 0.6117, -1.2323, 0.4788, 
0.4315, -0.7147]) 


In [127]: np.maximum(x，y) # 元 素 级 最 大 值 
out [127] : 

array([ 0.267 ， 0.0974, 0.2002, 0.6117, 0.4655, 0.9222， 
0.446 ， -0.7147]) 


虽然 并 不 常见 ， 但 有 些 ufunc 的 确 可 以 返回 多 
个 数组 。modf 束 有 古 一 个 例子 ， 它 古 Python 内 管区 
数 divmod 的 矢量 化 版 本 ， 用 于 浮 点 数 数组 的 小 数 


和 整数 部 分 。 


In [128]: arr = randn(7) * 5 


In [129]: np.modf(arr) 
Out[129] : 
(array([-0.6808, 0.0636, -0.386 ， 0.1393, -0.8806, 0.9363, 
-0.883 ])， 
array([-2., 4., -3., 5., -3., 3., -6.|])) 


表 4-3 和 表 4-4 分 别 列 出 了 一 些 一 元 和 二 元 


ufunc ° 


表 4-3: 一 元 Ufunc 
abs、 fabs 


sqrt 
square 
exp 


log、log10、log2、log1p 


sign 
ceil 


floor 


rint 
modf 


isnan 


isfinite、 isinf 


cos、 cosh、sin、sinh.、 
tan、tanh 


说 明 

计算 整数 、 浮 点 数 或 复数 的 绝对 值 。 对 于 非 复 数值 ， 可 以 
使 用 更 快 的 fabs 

计算 各 元 素 的 平方 根 。 相 当 于 arr ** 0.5 
计算 各 元 素 的 平方 。 相 当 于 arr ** 2 

计算 各 元 素 的 指数 er" 

分 别 为 自然 对 数 (底数 为 e) 、 底 数 为 10 的 log、 底 数 为 2 的 
log、log(1 + X) 

计算 各 元 素 的 正 负 号 : 1 ( 正 数 ) 、0 ( 零 ) 、 一 1 (负数 ) 
计算 各 元 素 的 ceiling 值 ， 即 大 于 等 于 该 值 的 最 小 整数 

计算 各 元 素 的 floor 值 ， 即 小 于 等 于 该 值 的 最 大 整数 


将 各 元 素 值 四 舍 五 入 到 最 接近 的 整数 ,保留 dtype 

将 数组 的 小 数 和 整数 部 分 以 两 个 独立 数组 的 形式 返回 
返回 一 个 表示 “哪些 值 是 NaN (这 不 是 一 个 数字 ) ”的 布 
尔 型 数组 

分 别 返 回 一 个 表示 “哪些 元 素 是 有 穷 的 ( 非 inf， 非 
NaN) ”或 “哪些 元 素 是 无 穷 的 ”的 布尔 型 数组 

普通 型 和 双 曲 型 三 角 函 数 


表 4-3: 一 元 ufunc ( 续 ) 
arccos、arccosh、arcsin、 
arcsinh、arctan、arctanh 


logical_not 


说 明 
反 三 角 函 数 


计算 各 元 素 not x 的 真 值 。 相 当 于 -arr 


表 4-4: 二 元 Ufunc 


函数 说 明 

add 将 数组 中 对 应 的 元 素 相 加 

subtract 从 第 一 个 数组 中 减 去 第 二 个 数组 中 的 元 素 

multiply 数组 元 素 相 乘 

divide、floor_divide ”除法 或 向 下 圆 整 除法 (丢弃 余数 ) 

power 对 第 一 个 数组 中 的 元 素 A， 根 据 第 二 个 数组 中 的 相应 元 素 B， 计 
算 A” 

maximum、fmax 元 素 级 的 最 大 值 计 算 。fmax 将 忽略 NaN 

minimum 、fmin 元 素 级 的 最 小 值 计 算 。fmin 将 忽略 NaN 

mod 元 素 级 的 求 模 计算 (除法 的 余数 ) 

copysign 将 第 二 个 数组 中 的 值 的 符号 复制 给 第 一 个 数组 中 的 值 

greater、greater_equal、 执行 元 素 级 的 比较 运算 ， 布尔 型 数组 。 相 当 于 中 缀 运 

less、less_equal、 算 符 >、>=、<、<=、==、 上 = 


equal、not_equal 


logical_and、logical_or、 执行 元 素 级 的 真 值 逻辑 运算 。 相 当 于 中 缀 运算 符 &、|、 人 ^ 
logical_xor 


利用 数组 进行 数据 处 理 


NumPy 效 组 使 你 可 以 将 许多 种 数据 处 理 任 务 
表述 为 消 洁 的 数组 表达 式 《否则 需要 编写 特 
环 ) 。 用 数组 表达 式 代替 循环 的 做 法 ， 通 党 被 称 
为 天 量化 。 一 般 来 说 ， 天 量化 数组 运算 要 比 等 价 
的 纯 Python 方 式 快 上 一 两 个 数量 级 (甚至 更 
多 ) ， 尤 其 是 各 种 数值 计算 。 在 后 面 内 容 中 ( 见 
第 12 革 ) 我 将 介绍 广播 ， 这 是 一 种 针对 矢量 化 计 
算 的 强大 手段 。 


假设 我 们 想 要 在 一 组 值 (网 格 型 ) 上 计算 男 
数 sqrt(Xx^2+y^2)。np.meshgrid 芳 数 授 受 两 个 一 维 数 
组 ， 并 产生 两 个 二 维 窍 阵 (对 应 于 两 个 数组 中 所 
有 的 (x,y) 对 ) s 


In [130]: points = np.arange(-5，5，0.01) # 1000 个 上 也 相等 的 操 


In [131]: xs, ys = np.meshgrid(points, points) 


In [132]: ys 


Out[132] : 

array([[-5. , -5. , -5. , ..., -5. , -5. , -5. |], 
[-4.99 4.99 4.99 -4.99 4.99, -4.99] 
[-4.98 4.98 4.98 -4.98 4.98, -4.98] 


现在 ， 对 该 函数 的 求 值 运算 束 好 办 了 ， 把 这 
两 个 数组 当做 两 个 浮 点 数 那 样 编 写 表 达 式 即 可 : 


In [134]: import matplotlib.pyplot as plt 
In [135]: z = np.sqrt(xs ** 2 + ys ** 2) 


In [136]: Zz 

Out[136]: 

array([[ 7.0711, 7.064 , 7.0569, ..., 7.0499, 7.0569, 
7.064 |], 
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.0499, ..., 7.0428, 7.0499, 
7.0569], 

[ 7.0569, 7.0499, 7.0428, ..., 7.0357, 7.0428, 
7.0499] ， 


[ 7.0499, 7.0428， 7.0357, ..., 7.0286, 7.0357, 
7.0428]，, 

[ 7.0569， 7.0499, 7.0428, ..., 7.0357, 7.0428, 
7.0499], 

[ 7.064 ， 7.0569, 7.0499, ..., 7.0428, 7.0499, 
7.0569]]) 


In [137]: plt.imshow(z, cmap=plt.cm.gray); plt.colorbar() 
Out[137]: <matplotlib.colorbar.Colorbar instance at 
Ox4e46d40> 


In [138]: plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a 


grid of values") 
Out[138]: <matplotlib.text.Text at Ox4565790> 


函数 值 (一 个 二 维 数组 ， 的 图 形 化 结果 如 图 
4-3 所 示 。 这 张 图 我 是 用 matplotlibH 的 imshow 芳 数 创 
建 的 。 


将 条 件 远 辑 表 述 为 数组 运 


numpy.where 函 效 是 三 元 未 达 了 式 x 计 condition 
else y 的 天 量化 版 本 。 假 设 我 们 有 一 个 布尔 数组 和 
两 个 值 数 组 : 
In [140]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5|]) 
In [141]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5]) 


In [142]: cond = np.array([True, False, True, True, Falsel]) 


Image plot of Vz2 +w fora grid of values 
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图 4-3: 根据 网 格 对 画 数 求 值 的 结 


假设 我 们 想 要 根据 cond 中 的 值 选 取 xarr 和 yarr 
的 值 : 当 cond 中 的 值 为 True 时 ， 和 选取 xarr 的 值 ， 否 
则 从 yar 中 选取 。 列 表 推 导 式 的 写法 应 该 如 下 所 
人 人、\: 


In [143]: result = [(x if c else y) 
i for x, y, c in zip(xarr, yarr, cond)] 


In [144]: result 
Out[144]: [1.1000000000000001，2.2000000000000002，1.3， 
1.3999999999999999，2.5] 


这 有 几 个 问题 。 第 一 ， 它 对 大 数组 的 处 理 速 
度 不 是 很 快 (因为 所 有 工作 都 是 由 纯 Python 完 成 
的 ) 。 第 二 ， 无 法 用 于 多 维 数 组 。 若 使 用 
np.where， 则 可 以 将 该 功能 写 得 非常 商洛: 


In [145]: result = np.where(cond, xarr, yarr) 


In [146]: result 
Out[146]: array([ 1.1, 2.2, 1.3, 1.4, 2.5]) 


np.where 有 的 第 二 个 和 第 三 个 参数 不 必 是 数组 ， 
它们 都 可 以 是 标量 值 。 在 效 据 分 机 工作 中 ，where 
通常 用 于 根据 另 一 个 数组 而 产生 一 个 新 的 数组 。 
假设 有 一 个 由 随机 数据 组 成 的 矩阵 ， 你 希望 将 所 
有 正 值 奉 换 为 2， 将 所 有 有 仙 值 苦 换 为 一 2。 硅 利用 
np.where， 则 会 非 钊 简单 : 


In [147]: arr = randn(4, 4) 


In [148]: arr 

Out[148] : 

array([[ 0.6372， 2.2043, 1.7904, 0.0752]， 
[-1.5926, -1.1536, 0.4413, 0.3483], 
[-0.1798, 0.3299, 0.7827, -0.7585], 
[ 0.5857, 0.1619, 1.3583, -1.3865]]) 


In [149]: np.where(arr > 0, 2, -2) 
Out[149]: 
array([[ 2, 2， 2 

-2, 2, / 
2, 2, -2]， 
2， 2 
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In [150]: np.where(arr > 9，2，arr) # 只 将 正 值 设置 为 2 


Out[150]: 

array([[ 2. ji 5 2 . 2 ] ， 
[-1.5926，-1.1536， 2. Pe | 
[-0.1798, 2. 2. ，-0.7585]，, 
[ 2. 2. 2. ，-1.3865]]) 


传递 给 where 的 数组 大 小 可 以 不 相等 ， 甚 至 可 
以 是 标量 值 。 


只 要 稍微 动 动脑 子 ， 你 束 能 用 where 表 壕 出 更 
复杂 的 逻辑 。 想 象 一 下 这 样 一 个 例 于 ， 我 有 两 个 
布尔 型 数组 cond1 和 cond2， 和 硕 望 根据 4 种 不 同 的 布 
不 值 组 合 实现 不 同 的 赋值 操作 : 


result = [|] 
for i In range(n): 
If cond1[I] and cond2[i]: 
result.append(0) 
elif cond1i[i]: 
result.append(1) 
elif cond2[i]: 
result .append(2) 
else: 
result .append(3) 


”虽然 不 是 非常 明显 ， 但 这 个 for 人 循环 确实 可 以 
被 改写 成 一 个 幅 套 的 where 表 达 式 : 


np.where(cond1 & cond2, 0, 
np.where(cond1i, 1, 
np.where(cond2, 2, 3))) 


在 这 个 特殊 的 例子 中 ， 我 们 还 可 以 利用 “布尔 
值 在 计算 过 程 中 可 以 被 当做 0 或 1 处 理 ” 这 个 事实 ， 
所 以 还 能 将 其 写成 下 面 这 样 的 算术 运算 (虽然 看 
上 去 有 点 神秘 ) : 


result = 1 * (cond1 -cond2) + 2 * (cond2 & -cond1) + 3 * - 
(cond1 | cond2) 


数学 和 统计 方法 


可 以 通过 数组 上 的 一 组 数学 函数 对 整个 数组 
或 某 个 轴 同 的 数据 进行 统计 计算 。sum、mean 以 
及 标准 差 std 等 聚合 计算 (aggregation， 通 党 叫做 
约 简 (reduction) ) 既 可 以 当做 数组 的 实例 方法 调 
用 ， 也 可 以 当做 顶级 NumPy 琴 数 使 用 : 


In [151]: arr = np.random.randn(5，4) # 止 个 分 


In [152]: arr.mean( ) 
Out[152]: 0.062814911084854597 


In [153]: np.mean(arr) 
Out[153]: 0.062814911084854597 


In [154]: arr.sum() 
Out[154]: 1.2562982216970919 


mean 和 sum 这 类 的 函数 可 以 搂 有 党 一 个 axis 参 数 
(用 于 计算 该 轴 向 上 的 统计 值 )， 最 终结 果 是 一 
个 少 一 维 的 数组 : 


In [155]: arr.mean(axis=1) 
Out[155]: array([-1.2833, 0.2844, 0.6574, 0.6743， 
-0.0187]) 


In [156]: arr.sum(0) 
Out[156]: array([-3.1003, -1.6189, 1.4044, 4.5712]) 


其 他 如 cumsum 和 cumprod 之 类 的 方法 则 不 聚 
合 ， 而 是 产生 一 个 由 中 间 结 条 组 成 的 数组 : 


In [157]: arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) 


In [158]: arr.cumsum(0) 
Out[158]: 
array([[ 09, 1, 2], 
[ 3, 5, 7], 
[ 9, 12, 15]]) 
In [159]: arr.cumprod(1) 
Out [159] : 
array([[ ©9, 9, 90|]， 
[ 3, 12, 60], 
[ 6, 42, 336]]) 


表 4-5 列 出 了 全 部 的 基本 数组 统计 方法 。 后 续 
章节 中 有 很 多 例子 都 会 用 到 这 些 方法 。 


表 4-5: 基本 数组 统计 方法 


去 说 明 

sum 对 数组 中 全 部 或 某 轴 向 的 元 素 求 和 。 零 长 度 的 数组 的 sum 为 0 
mean 算术 平均 数 。 零 长 度 的 数组 的 mean 为 NaN 

std、var 分 别 为 标准 差 和 方差 ， 自 由 度 可 调 (默认 为 n) 

min、 max 最 大 值 和 最 小 值 


argmin、argmax 分 别 为 最 大 和 最 小 元 素 的 索引 


表 4-5: 基本 数组 统计 方法 ( 续 ) 


i 友 说 明 
cumsum 所 有 元 素 的 票 计 和 
cumprod 所 有 元 素 的 累计 积 


用 于 布尔 型 数组 的 方法 


在 上 面 这 些 方法 中 ， 布 尔 值 会 被 强制 转换 为 1 
(True) 和 0 (False) 。 因 此 ，sum 经 党 被 用 来 对 
布尔 型 数组 中 的 True 值 计数 : 


In [160]: arr = randn(100) 


In [161]: (arr > 0).sum() # 正 值 的 数量 
out[161] : 44 


妨 外 还 有 两 个 方法 any 和 all， 它 们 对 布尔 型 数 
组 非常 有 用 。any 用 于 测试 数组 中 和 是否 存在 一 个 或 
多 个 True， 而 a 则 检查 数组 中 所 有 值 是 否 都 是 


True: 


In [162]: bools = np,array([False，False，True，False]) 


In [163]: bools.any() 
Out[163]: True 


In [164]: bools.all() 
Out[164]: False 


这 两 个 方法 也 能 用 于 非 布尔 型 数组 ， 所 有 非 0 
元 系 将 会 彼 当 做 True 。 


排序 


J 置 的 列表 类 型 一 样 ， NumPy 效 组 
也 可 以 通过 sort 方 法 整地 排序 : 


In [165]: arr = randn(8) 


In [166]: arr 

Out[166]: 

array([ 0.6903, 0.4678, 0.0968, -0.1349, 0.9879, 0.0185, 
-1.3147, -0.5425]) 


In [167]: arr.sort() 

In [168]: arr 

Out[168]: 

array([-1.3147, -0.5425, -0.1349, 0.0185, 0.0968, 0.4678, 
0.6903, 0.9879]) 


多 维 数 组 可 以 在 任何 一 个 轴 向 上 进行 排序 ， 
需 将 轴 编 号 传 给 sort 即 可 : 
In [169]: arr = randn(5, 3) 


In [170]: arr 


Out [170] : 

array([[-0.7139, -1.6331, -0.4959], 
[ 0.8236, -1.3132, -0.1935], 
[-1.6748, 3.0336, -0.863 ]， 
[-0.3161, 0.5362, -2.468 ]， 
[ 0.9058, 1.1184, -1.0516]]) 


In [171]: arr.sort(1) 


In [172]: arr 

Out[172] : 

array([[-1.6331, -0.7139, -0.4959], 
[-1.3132, -0.1935, 0.8236], 

-1.6748, -0.863 ， 3.0336], 


mm 


[-2.468 ，-0.3161， 0.5362], 
[-1.0516, 0.9058, 1.1184]]) 


顶级 方法 np.sort 区 回 的 是 数组 的 已 排序 副本 ， 
而 就 地 排序 则 会 修改 数组 本 喘 。 计 算数 组 分 位 数 
' 法 是 对 其 进行 排序 ， 然 后 选取 特定 位 


In [173]: large_arr = randn(1000) 
In [174]: large_arr.sort() 


In [175]: large arr[int(0.05 * len(large_arr))] # 5% 分 位 数 
Out[175]: -1.5791023260896004 


方法 以 及 诸如 间接 排序 
之 类 的 高 级 技术 ， 请 参阅 第 12 章 。 在 pandas 中 还 可 
以 找到 一 些 其 他 良 排序 有 关 的 数据 操作 (比如 根 
据 一 列 或 多 列 对 表格 型 数据 进行 排序 ) 。 


唯一 化 以 及 其 他 的 集合 逻辑 


NumpPy 提 供 了 一 些 守 对 一 维 ndarray 的 基本 集 
合 运 滤 。 最 弟 用 的 可 能 要 数 np.unique 了 ， 它 用 于 
找 出 数组 中 的 唯一 值 并 返回 已 排序 的 结 采 : 


In [176]: names = np.array(['Bob', 'Joe', 'Will', "Bob ， 
'Will', 'Joe', 'Joe']) 


In [177]: np.unique(names) 

Out[177]: 

array(['Bob', 'Joe', 'Will'], 
dtype='|S4') 


In [178]: ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4]) 


In [179]: np.unique(ints) 
Out[179]: array([1, 2, 3, 4]) 


拿 跟 np.unique 等 价 的 纯 Python 代 码 来 对 比 一 
下 : 


In [180]: sorted(set(names)) 
Out[180]: ['Bob', 'Joe', 'Will'] 


为 一 个 画 效 np.in1d 用 于 测试 一 个 数组 中 的 值 
在 为 一 个 数组 中 的 成 员 痪 格 ， 返 回 一 个 布尔 型 数 
组 


In [181]: values = np.array([6, 0, 0, 3, 2, 5, 6]) 


In [182]: np.inid(values, [2, 3, 6]) 
Out[182]: array([ True, False, False, True, True, False, 
Truel], dtype=bool) 


NumpPy 中 的 集合 函数 请 参见 表 4-6 。 
表 4-6: 数组 的 集合 运算 
焉 法 说 明 
unique(x) 计算 x 中 的 唯一 元 素 ， 并 返回 有 序 结果 
intersect1d(x, y) 计算 x 和 y 中 的 公共 元 素 ， 并 返回 有 序 结果 
union1d(x, y) 计算 x 和 y 的 并 集 ， 并 返回 有 序 结 果 
in1d(x, y) 得 到 一 个 表示 “x 的 元 素 是 否 包 含 于 y” 的 布尔 型 数组 
setdiff1d(x, y) 集合 的 差 ， 即 元 素 在 x 中 且 不 在 y 中 
setxor1d(x, y) 集合 的 对 称 差 ， 即 存在 于 一 个 数组 中 但 不 同时 存在 于 两 个 数组 中 的 
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用 于 数组 的 文件 输入 输出 


NumPy 能 够 谈 写 磁 一 上 的 文本 数据 或 二 进 制 
数据 。 后 面 的 章 太 将 会 告诉 你 一 些 pandas 中 用 于 
将 表格 型 数据 读 取 到 内 存 的 工具 。 


将 效 组 以 二 进 制 格 云 体 存 到 位 一 
np.save 和 np.load 是 读 写 亿 盘 数组 数据 的 两 个 


主要 函数 。 默 认 情 况 下 ， 数 组 是 以 末 压 缩 的 原始 
二 进 制 格式 傈 存在 扩展 名 为 .npy 的 文件 中 的 。 


In [183]: arr = np.arange(10) 


In [184]: np.save('some array', arr) 


如 果 文 件 路 任 末 尾 没有 扩展 名 .npy， 则 该 打 
展 名 会 侯 目 动 加 上 。 然 后 就 可 以 通过 np.load 读 取 
倒 盘 上 的 数组 : 


In [185]: np.load('some 0 apy ') 
Out[185]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]1) 


通过 np.savez 可 以 将 多 个 数组 你 存 到 一 个 压缩 
文件 中 ， 将 数组 以 天 键 字 参数 的 形式 传 入 即 可 : 


In [186]: np.savez('array_archive.npz', a=arr, b=arr) 


加 载 .npz 文 件 时 ， 你 会 得 到 一 个 关 似 字典 的 
对 象 ， 该 对 象 会 对 各 个 数组 进行 延迟 加 载 : 


In [187]: arch = np.load('array_archive.npz') 


In [188]: arch['b'] 
Out[188]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


人 存 取 文本 文件 


从 文件 中 加 载 文本 是 一 个 非 背 标准 的 任务 。 
Python 中 的 文件 读 写 函数 的 格式 很 容易 将 狐 手 捅 
学 ， 所 以 我 将 主要 介绍 pandas 中 的 read_csv 和 
read_table 芳 数 。 有 时， 我 们 需要 用 np.loadtxt 或 更 
为 专门 化 的 np.genfromtxt 将 数据 加 载 到 普通 的 
NumPy 效 组 中 。 


“这些 函 数 都 有 许多 选项 可 供 使 用 : 指定 各 种 
分 隅 符 、 针 对 特定 列 的 转换 紫 画 数 、 需 要 跳 过 的 
J 。 以 一 个 简单 的 逗号 分 隔 文件 (CSV) 为 
多 : 


In [191]: !cat array_ex,txt -3 
0.580052,0.186730,1.040717,1.134411 

0.194163, -0.636917, -0.938659,0.124094 
-0.126410,0.268607, -0.695724,0.047428 
-1.484413,0.004176, -0.744203,0.005487 
2.302869,0.200131,1.670238,-1.881090 
-0.193230,1.047233,0.482803,0.960334 


该 文件 可 以 被 加 载 到 一 个 二 维 数 组 中 ， 如 下 
J 


In [192]: arr = np.loadtxt('array_ex.txt', delimiter="','") 

In [193]: arr 

Out[193]: 

array([[ 0.5801, 0.1867, 1.0407, 1.1344], 
0.1942, -0.6369, -0.9387, 0.12411], 
-0.1264, 0.2686, -0.6957, 0.0474], 
-1.4844, 0.0042, -0.7442, 0.0055], 
2.3029, 0.2001, 1.6702, -1.8811], 
-0.1932, 1.0472, 0.4828, 0.9603]]) 


np.savetxt 执 行 的 是 相反 的 控 作 :将 数组 写 到 
以 某 种 分 隔 符 隅 开 的 文本 文件 中 。genfromtxt 跟 
loadtxt 才 不 多 ， 只 不 过 它 面 同 的 是 结构 化 数组 和 
缺失 数据 处 理 。 更 多 有 关 结 构 化 数组 的 知识 ， 请 


参阅 第 12 章 。 


注意 : 更 多 有 关 文 件 读 写 (尤其 是 表格 型 数 
据 ) 的 知识 ， 请 参阅 本 书后 面 有 关 pandas 和 
DataFrame 对 象 的 划 广 。 


er 


译注 5: ] 这 是 Linux 的 ]， Windows 得 用 type 


线性 代数 


线性 代数 (如 和 佐 阵 乘法 、 和 矩阵 分 解 、 行 列 式 
以 及 其 他 方 阵 数学 等 ) 是 任何 数组 库 的 重要 组 成 
部 分 。 不 像 某 些 语言 (如 MATLAB) ， 通 过 * 对 两 
个 二 维 数组 相 乘 得 到 的 是 一 个 元 素 级 的 积 ， 而 不 
是 一 个 矩阵 点 积 。 因 此 ，NumPy 提 供 了 一 个 用 于 
矩阵 乘法 的 dot 函 数 (既是 一 个 数组 方法 也 是 
numpy 命 名 空间 中 的 一 个 函数 ) : 


In [194]: x = np.array([[1., 2., 3.], [4., 5., 6.]]) 


In [195]: y = np.array([[6., 23.], [-1, 7], [8, 9]]) 


In [196]: x In [197]: y 
Out[196] : Out[197] : 
array([[ 1., 2., 3.1], array([[ 6., 23.1], 
[ 4., 5., 6.]]) [ -1., 7.1], 
[ 8., 9.]]) 


In [198]: x.dot(y) # 相当 于 np.dot(x，Yy) 
Out[198] : 
array([[ 28., 64.1], 

[ 67., 181.]]) 


一 个 二 维 数 组 跟 一 个 大 小 合适 的 一 维 数 组 的 
短 阵 点 积 运 算 之 后 将 会 得 到 一 个 一 维 数 组 


In [199]: np.dot(x, np.ones(3)) 
Out[199]: array([ 6., 15.]) 


numpylinalg 中 有 一 组 标准 的 矩阵 分 解 运算 以 
及 诸如 求 馆 和 行列 式 之 类 的 东西 。 写 们 跟 
MATLAB 和 R 等 语言 所 使 用 的 是 相同 的 行业 标准 级 
Fortran 库 ， 如 BLAS、LAPACK、ntel MKL (可 能 
有 ， 取 决 于 你 的 NumPy 版 本 ) 等 : 


In [201]: from numpy.1linalg import inv, qr 
In [202]: XxX = randn(5, 5) 
In [203]: mat = X.T.dot(X) 


In [204]: inv(mat) 


Out[204]: 

array([[ 3.0361, -0.1808, -0.6878, -2.8285, -1.1911], 
[-0.1808, 0.5035, 0.1215, 0.6702, 0.0956], 
[-0.6878, 0.1215, 0.2904, 0.8081, 0.3049], 
[-2.8285, 0.6702, 0.8081, 3.4152, 1.1557], 
[-1.1911, 0.0956, 0.3049, 1.1557, 0.6051]]) 

In [205]: mat.dot(inv(mat)) 

Out[205]: 

array([[ 1., 0., 0., 0., -0.], 
[ 0., 1., -0., 0., 0.], 
[ 0., -0., 1., 0., 0.], 
[ 0., -0., -0., 1., -0.], 
[ 0., 0., 0., 0., 1.]]) 

In [206]: q, r = qr(mat) 

In [207]: r 

Out[207] : 

array([[ -6.9271, 7.389 ， 6.1227， -7.1163, -4.9215], 
[ 0. ， -3.9735, -0.8671, 2.9747, -5.7402], 
[ 6， ， 0. ， -10.2681, 1.8909, 1.6079], 
[ 0 ， 0. ， 0. . 1.2996, 3.3577], 
[ 0 ， 0 ， 0. ， 0 ， 0.5571]]) 


表 4-7 中 列 出 了 一 些 最 常用 的 线性 代数 函数 。 


注意 : Python 科 学 计算 仁 区 助 站 望 厦 有 瑚 一 日 
屁 实 现 恕 隆 乘 法 的 中 缀 运算 从 ， 以 便 能 用 一 种 更 
六 腕 的 语法 代 巷 np.dot。 不 过 E 亲 束 只 能 先 这 样 
o 


表 4-7: 常用 的 numpy.linalg 函 数 


函数 说 明 

diag 以 一 维 数组 的 形式 返回 方 阵 的 对 角 线 (或 非 对 角 线 ) 元 素 ， 或 将 一 维 数组 
转换 为 方 阵 〈 非 对 角 线 元 素 为 0) 

dot 算 阵 乘法 

trace 计算 对 角 线 元 素 的 和 

det 计算 德 阵 行列 式 

eig 计算 方 阵 的 本 征 值 和 本 征 向 量 

inv 计算 方 阵 的 逆 

pinv ee 

dr 计算 QR 分 

svd ei } 解 (SVD) 


solve 解 线 性 方程 组 Ax = b， 其 中 A 为 一 个 方 阵 
lstsq 计算 Ax = b 的 最 小 二 乘 解 


随机 效 生 成 


numpyrandom 模 块 对 Python 内 置 的 random 进 
行 了 补充 ， 增 加 了 一 些 用 于 高 效 生 成 多 种 概率 分 
布 的 样本 值 的 钞 数 。 例 如 ， 你 可 以 用 normal 来 得 

到 一 个 标准 正 态 分 布 的 4x4 样 本 数组 : 


In [208]: samples = np.random.normal(size=(4, 4)) 


In [209]: samples 


out[209] : 

array([[ 0.1241, 0.3026, 0.5238, 0.0009], 
[ 1.3438, -0.,7135, -0.8312, -2.3702], 
[-1.8608, -0.8608, 0.5601, -1.2659], 
[ 0.1198, -1.0635, 0.3329, -2.3594]]) 


而 Python 内 置 的 random 模 块 则 只 能 一 次 生成 
一 个 样本 值 。 从 下 面 的 测试 结果 中 可 以 看 出 ， 如 
果 需 要 产生 大 量 样 本 值 ，numpy.random 快 7 不 上 上 
一 个 数量 级 : 


In [210]: from random import normalvariate 

In [211]: N = 1000000 

In [212]: %timeit samples = [normalvariate(©0, 1) for _ in 
xrange(N)] 

1 loops, best of 3: 1.33 s per loop 


In [213]: %timeit np.random.normal(size=N) 
10 loops, best of 3: 57.7 ms per loop 


表 4-8 列 出 了 numpyrandom 中 的 部 分 函数 。 在 
下 一 节 中 ， 我 将 给 出 一 些 利 用 这 些 函 数 一 次 性 生 
成 大 量 样本 值 的 范例 。 


表 4-8: 部 分 numpy.random 函 数 


~ 


函数 说 明 

seed 确定 随机 数 生 成 器 的 种 子 

permutation ”返回 一 个 序列 的 随机 排列 或 返回 一 个 随机 排列 的 范围 

shuffle 对 一 个 序列 就 地 随机 排列 

rand 产生 均匀 分 布 的 样本 值 

randint 从 给 定 的 上 下 限 范 围 内 随机 选取 整数 

randn 产生 正 态 分 布 〈 平 均值 为 0， 标 准 差 为 1) 的 样本 值 ， 类 似 于 MATLAB 接 口 
binomial 产生 二 项 分 布 的 样本 值 

normal 产生 正 态 (高 斯 ) 分布 的 样本 值 

beta 产生 Beta 分 布 的 样本 值 


表 4-8: 部 分 numpy.random 函 数 ( 续 ) 

函数 说 明 

chisquare 产生 卡 方 分 布 的 样本 值 

gamma 产生 Gamma 分 布 的 样本 值 
uniform 产生 在 [0, 1) 中 均匀 分 布 的 样本 值 


范例 : 随机 漫步 


”我 们 通过 模拟 随机 漫步 来 说 明 如 何 运 用 数组 
运算 。 移 来 看 一 个 和 商 单 的 随机 漫步 的 例子 : 从 0 开 
始 ， 步 长 1 和 一 1 出 现 的 概率 相等 。 我 们 通过 内 置 
的 random 模 块 以 纯 Python 的 方式 实现 1000 步 的 随 
机 漫步 : 

Import random 

position = 0 

walk = [position] 

steps = 1000 

for i In xrange(steps): 

step = 1 if random.randint(0, 1) else -1 


position += step 
walk.append(position) 


图 4-4 是 根据 前 100 个 随机 漫步 值 生成 的 折线 
o 


Random walk with +1/-1 steps 


0 20 40 60 80 


图 4-4: 催 单 的 随机 漫步 


不 难看 出 ， 这 其 实 束 古 随机 漫步 中 各 步 的 系 
计 和 ， 可 以 用 一 个 数组 运算 来 实现 。 因 此 ， 我 用 
np.random 模 块 一 次 性 随机 产生 1000 个 “ 毛 人 硬币 ” 结 
果 ( 即 两 个 数 中 任 选 一 个 ) ， 将 其 分 别 设置 为 1 或 
一 1， 然 后 计算 素 计 和 : 

In [215]: nsteps = 1000 
In [216]: draws = np.random.randint(0, 2, size=nsteps) 
In [217]: steps = np.where(draws > 0, 1, -1) 


In [218]: walk = steps.cumsum() 


有 了 这 些 数据 之 后 ， 我 们 就 可 以 做 一 些 统计 
工作 了 ， 比 如 求 取 最 大 值 和 最 小 值 


In [219]: walk.min() 
Out[219]: -3 
In [220]: walk.max() 
Out[220]: 31 


现在 来 看 一 个 复杂 点 的 统计 任务 一 一 首次 罕 
越 时 间 ， 即 随机 漫步 过 程 中 第 一 次 到 达 某 个 特定 
值 的 时 间 。 假 设 我 们 想 要 知道 本 次 随机 漫步 需要 
多 和 久 才 能 距离 初始 0 点 至 少 10 步 远 〈 任 一 方向 均 
可 ) 。np.abs(walk)>=10 可 以 得 到 一 个 布尔 型 数 
组 ， 它 表示 的 是 距离 是 否 达 到 或 超过 10， 而 我 们 
想 要 知道 的 是 第 一 个 10 或 一 10 的 索引 。 可 以 用 
argmax 来 解决 这 个 问题 ， 它 返回 的 是 该 布尔 型 数 
组 第 一 个 最 大 值 的 索引 〈True 就 是 最 大 值 ) : 


In [221]: (np.abs(walk) >= 10).argmax() 
Out[221]: 37 


注意 ， 这 里 使 用 argmax 并 不 是 很 高 效 ， 因 为 
它 无 论 如 何 都 会 对 数组 进行 完全 扫 摘 。 在 本 例 
中 ， 只 要 发 现 了 一 个 True， 那 我 们 就 知道 它 是 个 
最 大 值 了 。 


一 次 模拟 多 个 随机 漫步 


如 果 你 希望 模拟 多 个 随机 漫步 过 程 (比如 
5000 个 ) ， 只 需 对 上 面 的 代码 做 一 点 点 修改 即 可 
生成 所 有 的 随机 漫步 过 程 。 只 要 给 numpy.random 
的 函数 传 入 一 个 二 元 元 组 吏 可 以 产生 一 个 二 维 数 


组 ， 然 后 我 们 束 可 以 一 次 性 计算 5000 个 随机 漫步 
过 得 全 放生 


In [222]: nwalks = 5000 
In [223]: nsteps = 1000 


In [224]: draws = np.random.randint(0, 2, size=(nwalks, 
nsteps)) # 0 或 1 


In [225]: steps = np.where(draws > 0, 1, -1) 
In [226]: walks = steps.cumsum(1) 


In [227]: walks 


Out [227]: 

array([[ 1, ©, Tn 8, 了 8], 
[ 14, 0, -1, ..., 34, 33, 32], 
[ 1, 09, -1, ee 4, 5, 4], 
[ 1 2, 1, ..., 24, 25, 26], 
[ 1, 2, 3, ..., 14, 13, 14], 
[ 1, 2 3, i. -24, 23, -22]1]) 


现在 ， 我 们 来 计算 所 有 随机 漫步 过 程 的 最 大 
值 和 最 小 值 : 


In [228]: walks.max() 
Out[228]: 138 
In [229]: walks.min() 
out[229]: -133 


得 到 这 些 数据 之 后 ， 我 们 来 计算 30 或 一 30 的 
最 小 穿越 时 间 。 这 里 得 要 稍 徽 动 一 下 脑筋 ， 因 为 
不 是 5000 个 过 程 都 到 达 了 30。 我 们 可 以 用 any 方 法 
来 对 此 进行 检查 


In [230]: hits30 = (np.abs(walks) >= 30).any(1) 

In [231]: hits30 

Out[231]: array([False, True, False, ..., False, True, 
Falsel], dtype=bool) 


In [232]: hits30.,sum() # 到 达 30 或 一 30 的 数量 
Out[232]: 3410 


然后 我 们 利用 这 个 布尔 型 数组 选 出 那些 穿越 
了 30 (绝对 值 ) 的 随机 漫步 ( 行 ) ， 并 调用 
argmax 在 轴 1 上 获取 罕 越 时 间 : 

ES = (np.abs(walks[hits30]) >= 


In [234]: crossing_times.mean() 
Out[234]: 498.88973607038122 


请 莹 试 用 其 他 分 布 方式 得 到 漫步 数据 。 只 需 
使 用 不 同 的 随机 数 生 成 函数 即 可 ， 如 normal 用 于 
生成 指定 均值 和 标准 差 的 正 态 分 布 数据 : 


In [235]: steps = np.random.normal(loc=0, scale=0.25, 
i size=(nwalks, nsteps)) 


第 5 草 pandas 入 | 


pandas 是 本 书后 续 内 容 的 首选 库 。 它 含有 使 
数据 分 析 工 作 变 得 更 快 更 简单 的 高 级 数据 结构 和 
操作 工具 。pandas 是 基于 NumPy 构 建 的 ， 让 以 
NumPy 为 中 心 的 应 用 变 得 更 加 信 单 。 


先 介绍 一 点 背景 。 我 是 在 2008 年 早期 还 在 
AQR (一 家 定量 投资 管理 公司 ) 任职 期 间 开 始 着 
手 构 建 pandas 的 。 那 时 候 ， 没 有 任何 一 个 单独 的 
工具 能 够 满足 我 工作 上 的 全 部 需求 : 

-具备 按 轴 目 动 或 显 式 数据 对 齐 功 能 的 数据 结 
构 。 这 可 以 防止 许多 由 于 数据 未 对 齐 以 及 来 目 不 
同 数据 源 (索引 方式 不 同 ) 的 数据 而 导致 的 常见 
错误 。 

集成 时 间 序 列 功 能 。 


- 既 能 处 理 时 间 序 列 数 据 也 能 处 理 非 时 间 序列 
数据 的 数据 结构 。 


数学 运算 和 约 简 (比如 对 某 个 轴 求 和 ) 可 以 
根据 不 同 的 元 数据 ( 轴 编 号 ) 执行。 


:灵活 处 理 缺 失 数 据 。 


-合并 及 其 他 出 现在 常见 数据 库 (例如 基于 
SQL 的 ) 中 的 关系 型 运算 。 


我 布 望 能 够 在 一 个 地 廊 完 成 所 有 这 些 事情 ， 
最 好 是 一 种 能 进行 通用 软件 开发 的 语言 。Python 
侠 一 卜 不 钞 的 候选 语言 ， 但 那 时 候 它 还 没有 一 组 
能 完全 提供 上 述 功 能 的 数据 结构 和 工具 。 


在 过 去 的 4 年 中 ，pandas 逐 渐 成 长 为 一 个 非常 
大 的 库 ， 它 所 能 解决 的 数据 处 理 问 题 已 经 比 我 期 
望 的 要 多 得 多 了 。 但 随 看 其 范围 的 扩大 ， 它 也 逐 
渐 背 离 了 我 最 初 所 期 户 的 简 党 性 和 易 用 性 。 我 项 
望 你 在 读 完 本 书 之 后 ， 也 能 像 我 一 样 认 为 它 是 一 
个 不 可 或 缺 的 工具 。 


在 本 书后 续 部 分 中 ， 我 将 使 用 下 面 这 样 的 
pandas 引 入 约定 : 


In [1]: from pandas import Series, DataFrame 


In [2]: import pandas as pd 


因此 ， 只 要 你 在 代码 中 看 到 pd.， 束 得 想到 这 
是 pandas。 因为 Series 和 DataFrame 用 的 次 数 非 党 
多 ， 所 以 将 其 引入 本 地 命名 空间 中 会 更 方便 。 


pandas 的 数据 结构 介绍 


要 使 用 pandas， 你 首先 就 得 熟悉 它 的 两 个 主要 
数据 结构 : Series 和 DataFrame。 虽然 它们 并 不 能 
解决 所 有 问题 ， 但 它们 为 大 多 数 应 用 提供 了 一 种 
可 徘 的 、 易 于 使 用 的 基础 。 


Serles 


Series 是 一 种 类 似 于 一 维 数组 的 对 象 ， 它 由 一 
组 数据 〈 各 种 NumPy 数 据 类 型 ) 以 及 一 组 与 之 相 
天 的 数据 标签 〈《 即 索引 ) 组 成 。 仅 由 一 组 数据 即 
可 产生 最 从 单 的 Series: 


In [4]: obj = Series([4, 7, -5, 3]) 


In [5]: obj 
Out[5] : 

0 

1 7 

2 =9 

3 3 


Series 的 字符 串 表现 形式 为 ， 索引 在 左边 ， 值 
在 右边 。 由 于 我 们 没有 为 数据 指定 索引 ， 于 是 会 
自动 创建 一 个 0 到 N1 (N 为 数据 的 长 度 ) 的 整数 型 
索引 。 你 可 以 通过 Series 的 values 和 index 属 性 获取 
其 效 组 表示 形式 和 索引 对 象 : 


In [6]: obj.values 
Out[6]: array([ 4, 7, -5, 3]) 


In [7]: obj.index 
Out[7]: Int64Index([0, 1, 2, 3]) 
通 津 ， 我 们 布 尾 所 创建 的 Series 市 有 一 个 可 以 
对 各 个 数据 后 进行 标记 的 索引 : 
In [8]: obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 
'c']) 
In [9]: obj2 
Out[9] : 
d 4 
b 7 
a -5 
C 3 
In [10]: obj2.index 
Out[10]: Index([d, b, a, c], dtype=object) 
与 普通 NumPy 数 组 相 比 ， 你 可 以 通过 索引 的 
方式 选取 Series 中 的 单个 或 一 组 值 : 


In [11]: obj2['a'] 
Out[11]: -5 


In [12]: obj2['d'] = 6 


In [13]: obj2[['c', 'a', 'd']] 


Out[13]: 

C 3 
a -5 
d 6 


NumpPy 数 组 运算 (如 根据 布尔 型 数组 进行 过 
滤 、 标 量 乘 法 、 应 用 数学 函数 等 ) 都 会 保留 索引 


和 值 之 则 的 链接 : 


In [14]: obj2 


Out[14] : 
d 6 
b 7 
a -5 
C 3 
In [15]: obj2[obj2 > 0] In [16]: obj2 * 2 In [17]: 
np.exp(obj2) 
Out[15]: Out[16]: Out[17]: 
d 6 d 12 d 
403 .428793 
b 7 b 14 b 
1096.633158 
CE 3 a -10 a 
0.006738 

C 6 C 
20.085537 


还 可 以 将 Series 看 成 是 一 个 定 长 的 有 序 字 暴 ， 


因为 它 生 索引 值 到 数据 值 的 一 个 映射 。 它 可 以 用 
在 许多 原本 需要 字典 参数 的 函数 中 : 


In [18]: 'b' in obj2 
Out[18]: True 


In [19]: 'e' in obj2 
Out[19]: False 


一 个 Python 字典 中 ， 也 可 


以 直接 通过 这 个 字典 来 创建 Series: 


In [20]: sdata = {'0hio': 35000, 'Texas': 71000, ' Oregon ' : 


16000, 'Utah': 5000} 


In [21]: obj3 = Series(sdata) 


In [22]: obj3 


Out[22] : 

Ohio 35000 
Oregon 16000 
Texas 71000 
Utah 5000 


如 朱 只 传 入 一 个 字典 ， 则 绪 东 Series 中 的 索引 
束 是 原 字 典 的 键 《有 序 排列 ) 。 


In [23]: states = ['California', 'Ohio', 'Oregon', 'Texas ' ] 


In [24]: obj4 = Series(sdata, index=states) 
In [25]: obj4 


Out[25]: 

California NaN 
Ohio 35000 
Oregon 16000 
Texas 71000 


在 这 个 例子 中 ，sdata 中 跟 states 索 引 相 匹配 的 
那 3 个 值 会 航 找 出 来 并 放 到 相应 的 位 置 上 ， 但 由 
于 "California" 所 对 应 的 sdata 值 找 不 到 ， 所 以 其 结 
果 就 为 NaN ( 即 “ 非 数字 ”(notanumber) ， 在 
pandas 中 ， 它 用 于 表示 缺失 或 NA 值 ) 。 我 将 使 用 
缺失 (missing) 或 NA 表示 缺失 数据 。pandas 的 
isnull 和 notnull 函 数 可 用 于 检测 缺失 数据 : 


In [26]: pd.isnull(obj4) In [27]: pd.notnull(obj4) 
Out[26]: Out[27]: 

California True California False 

Ohio False Ohio True 
Oregon False Oregon True 


Texas False Texas True 


Series 也 有 类 似 的 实例 方法 : 


In [28]: obj4.isnull() 


Out[28] : 

California True 
Ohio False 
Oregon False 
Texas False 


我 将 在 本 章 详 细 讲 解 如 何 处 理 缺 失 数据 。 


对 于 许多 应 用 而 言 ，Series 最 重要 有 的 一 个 功能 
它 在 算术 运算 中 会 目 动 对 齐 不 同 索 引 的 数 


In [29]: obj3 In [30]: obj4 
Out[29] : Out[30] : 

Ohio 35000 California NaN 
Oregon 16000 Ohio 35000 
Texas 71000 Oregon 16000 
Utah 5000 Texas 71000 
In [31]: obj3 + obj4 

Out[31] : 

California NaN 

Ohio 70000 

Oregon 32000 

Texas 142000 

Utah NaN 


效 据 对 齐 功能 将 在 一 个 单独 的 主题 中 讲解 。 


Series 对 象 本 刁 及 其 索引 都 有 一 个 name 属 性 ， 
该 属性 跟 pandas 其 他 的 关键 功能 天 系 非常 密切 : 


In [32]: obj4.name = 'population' 


In [33]: obj4.index.name = 'state' 


In [34]: obj4 


Out[34]: 

state 

california NaN 
Ohio 35000 
Oregon 16000 
Texas 71000 


Name: population 


Series 的 索引 可 以 通过 巍 值 的 方式 整地 修改 : 


In [35]: obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan'] 


In [36]: obj 

Out[36]: 

Bob 4 

Steve 7 

Jeff 5 

Ryan 3 
DataFrame 


DataFrame 古 一 个 表格 型 的 数据 结构 ， 它 合 有 
一 组 有 序 的 列 ， 每 列 可 以 是 不 同 的 值 类 型 〈 数 
值 、 字 符 串 、 布 尔 值 等 ) 。DataFrame 既 有 行 索引 
也 有 列 索 引 ， 它 可 以 被 看 做 由 Series 组 成 的 字典 
(共用 同一 个 索引 ) 。 跟 其 他 类 似 的 数据 结构 相 
比 (如 R 的 data.frame) ，DataFrame 中 面向 行 和 面 
回 列 的 操作 基本 上 是 平衡 的 。 其 实 ，DataFrame 中 
的 数据 是 以 一 个 或 多 个 二 维 块 存放 的 (而 不 是 列 
表 、 字 典 或 别 的 一 维 数 据 结 构 ) 。 有 关 DataFrame 
内 部 的 技术 细 太 远 远 超出 了 本 书 所 讨论 的 范围 。 


注意 : 虽然 DataFrame 是 以 二 维 结构 保存 数据 
的 ， 但 你 仍然 可 以 轻松 地 将 其 表示 为 更 高 维度 的 
数据 (层次 化 索引 的 表格 型 结构 ， 这 是 pandas 中 许 
多 高 级 数据 处理 功能 的 关键 要 素 ， 我 们 稍 后 再 来 


讨论 这 个 问题 ) 。 


构建 DataFrame 的 办 法 有 很 多 ， 最 凋 用 的 一 种 
人 由 等 长 列表 或 NumPy 数 组 组 成 的 
字典 : 


data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 
'Nevada'], 
'year': [2000, 2001, 2002, 2001, 2002], 
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} 
frame = DataFrame(data) 


结果 DataFrame 会 自动 加 上 索引 〈 跟 Series 一 
样 ) ， 且 全 部 列 会 被 有 序 排 列 : 
In [38]: frame 


Out[38] : 
pop state year 


0 1.5 Ohio 2000 
1 1.7 Ohio 2001 
2 3.6 Ohio 2002 
3 2.4 Nevada 2001 
4 2.9 Nevada 2002 


如 果 指 定 了 列 序列 ， 则 DataFrame 的 列 束 会 按 
照 指 定 顺 序 进 行 排 列 : 


In [39]: DataFrame(data, columns=['year', 'state', 'pop']) 
Out[39] : 


year 
2000 
2001 
2002 
2001 
2002 


和 ONPO 


state 
Ohio 
Ohio 
Ohio 
Nevada 
Nevada 


跟 Series 一 样 ， 如 果 传 入 的 列 在 数据 中 找 不 
到 ， 束 会 产生 NA 信 : 


In [40]: frame2 
'pop', 'debt'], 


'four', 'five']) 


In [41]: frame2 


DataFrame(data， 


CoOJumns=[ year '， 


"State '， 


O 


Index=[ "one '， 


debt 
NaN 
NaN 
NaN 


'two', 


'three', 


Out[41]: 

year state 
one 2000 Ohio 
two 2001 Ohio 
three 2002 Ohio 
four 2001 Nevada 
five 2002 Nevada 


DDDOOPPDSO 
OPONATD 


NaN 
NaN 


In [42]: frame2.columns 


Out[42] : 


Index([year， 


state, 


pop, 


debt], dtype=object) 


通过 类 似 字 典 标记 的 方式 或 属性 的 方式 ， 可 
以 将 DataFrame 的 列 获取 为 一 个 Series: 


In [43]: frame2['state'] 


Out[43]: 
one 

two 
three 
four 
five 
Name: 


Ohio 
Ohio 
Ohio 


Nevada 
Nevada 


state 


In [44]: frame2.year 
Out[44]: 

one 2000 

two 2001 

three 2002 

four 2001 

five 2002 

Name: year 


注意 ， 返 回 的 Series 拥 有 原 DataFrame 相 同 的 
索引 ， 且 其 name 属 性 也 已 经 被 相应 地 设置 好 了 。 
行 也 可 以 通过 位 置 或 名 称 的 方式 进行 获取 ， 比 如 
用 索引 字段 这 ( 稍 后 将 对 此 进行 详细 讲解 ) 


In [45]: frame2.1x[ three ] 
Out[45] : 


year 2002 
State Ohio 
pop 3.6 
debt NaN 


Name: three 


列 可 以 通过 赋值 的 方式 进行 修改 。 例 如 ， 我 
1 


In [46]: frame2['debt'] = 16.5 


In [47]: frame2 
Out[47]: 


year state pop debt 
one 2000 Ohio 1.5 16.5 
two 2001 Ohio 1.7 16.5 
three 2002 Ohio 3.6 16.5 
four 2001 Nevada 2.4 16.5 


five 2002 Nevada 2.9 16.5 
In [48]: frame2['debt'] = np.arange(5.) 


In [49]: frame2 
Out[49] : 


year state pop debt 
one 2000 Ohio 1.5 0 
two 2001 Ohio 1.7 1 
three 2002 Ohio 3.6 2 
four 2001 Nevada 2.4 3 
five 2002 Nevada 2.9 4 


将 列表 或 数组 赋值 给 某 个 列 时 ， 其 长 度 必 须 
跟 DataFrame 的 长 度 相 匹配 。 如 果 赋 值 的 是 一 个 
Series， 就 会 精确 匹配 DataFrame 的 索引 ， 所 有 的 
空位 都 将 航 填 上 缺失 信 : 


In [50]: val = Series([-1.2, -1.5, -1.7], index=['two', 
'four', 'five']) 


In [51]: frame2['debt'] = val 
In [52]: frame2 
Out[52] : 


year state pop debt 
one 2000 Ohio 1.5 NaN 
two 2001 Ohio 1.7 1 这 
three 2002 Ohio 3.6 NaN 
four 2001 Nevada 2.4 -1.5 
five 2002 Nevada 2.9 -1.7 


为 不 存在 的 列 赋值 会 创建 出 一 个 新 列 。 天 键 
字 del 用 于 删除 列 : 


In [53]: frame2['eastern'] = frame2.state == 'Ohio' 


In [54]: frame2 
Out[54] : 


year state pop debt eastern 
one 2000 Ohio 1.5 NaN True 
two 2001 Ohio 1.7 -1.2 True 
three 2002 Ohio 3.6 NaN True 
four 2001 Nevada 2.4 -1.5 False 
five 2002 Nevada 2.9 -1.7 False 


In [55]: del frame2['eastern'] 


In [56]: frame2.columns 
Out[56]: Index([year, state, pop, debt], dtype=object) 


警告 通过 索引 方式 返回 的 列 只 是 相应 数据 
的 视图 而 已 ， 并 不 是 副本 。 因 此 ， 对 返回 的 Series 
所 做 的 任何 就 地 修改 全 都 会 及 映 到 源 DataFrame 
上 。 通 过 Series 的 copy 方 法 即 可 显 式 地 复制 列 。 


尺 一 种 常见 的 数据 形式 是 符 套 字典 〈 也 殉 是 
字典 的 字典 ) 


In [57]: pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
....: 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}} 
如 采 将 它 传 给 DataFrame， 记 束 会 彼 解 释 为 : 
外 层 字 典 的 键 作 为 列 ， 内 层 键 则 作为 行 索引 : 
In [58]: frame3 = DataFrame( pop) 


In [59]: frame3 
Out[59]: 


Nevada Ohio 
2000 NaN 1.5 
2001 2.4 7 
2002 2.9 3.6 


当然 ， 你 也 可 以 对 该 结 来 进行 转 置 : 


In [60]: frame3.T 
Out[60]: 

2000 2001 2002 
Nevada NaN 2.4 2.9 
Ohio :5 :7 3.6 


内 层 字 典 的 键 会 被 合并 、 排 序 以 形成 最 终 的 
索引 。 如 有 果 显 式 指 定 了 索引， 则 不 会 这 样 : 


In [61]: DataFrame(pop, index=[2001, 2002, 2003]) 


Out[61]: 

Nevada Ohio 
2001 2.4 1 
2002 2.9 3.6 
2003 NaN NaN 


由 Series 组 成 的 字典 关 不 多 也 十 一 样 的 用 法 ; 


In [62]: pdata = {'0hio': frame3['Ohio'][:-1], 
'Nevada': frame3['Nevada' 1][:2]1} 


In [63]: DataFrame(pdata) 


Out[63]: 

Nevada Ohio 
2000 NaN 1.5 
2001 2.4 1.7 


表 5-1 列 出 了 DataFrame 构 造 琅 数 所 能 接受 的 各 
种 数据 。 


表 5-1: 可 以 输入 给 DataFrame 构 造 器 的 数据 


类 型 说 明 

二 维 ndarray 数据 矩阵， 还 可 以 传 入 行 标 和 列 标 

由 数组 、 列 表 或 元 组 组 成 的 字典 ”每 个 序列 会 变 成 DataFrame 的 一 列 。 所 有 序列 的 长 度 
必须 相同 

NumpPy 的 结构 化 /记录 数组 类 似 于 “由 数组 组 成 的 字典 ” 

由 Series 组 成 的 字典 每 个 Series 会 成 为 一 列 。 如 果 没 有 显 式 指定 索引 ， 则 
各 Series 的 索引 会 被 合并 成 结果 的 行 索引 

由 字典 组 成 的 字典 各 内 层 字 典 会 成 为 一 列 。 键 会 被 合并 成 结果 的 行 索 
引 ， 跟 “由 Series 组 成 的 字典 ”的 情况 一 样 

典 或 Series 的 列表 各 项 将 会 成 为 DataFrame 的 一 行 。 字 典 键 或 Series 索 引 

的 并 集 将 会 成 为 DataFrame 的 列 标 

由 列表 或 元 组 组 成 的 列表 类 似 于 “二 维 ndarray” 

另 一 个 DataFrame 该 DataFrame 的 索引 将 会 被 沿用 ， 除 非 显 式 指定 了 其 
他 索引 

NumpPy 的 MaskedArray 类 似 于 “二 维 hndarray” 的 情况 ， 只 是 掩 码 值 在 结果 


DataFrame 会 变 成 NA/ 缺 失 值 


如 果 设 置 了 DataFrameb 风 index 和 columns 的 
name 属 性 ， 则 这 些 信息 也 会 航 显 示 出 来 : 


In [64]: frame3.index.name = 'year'; frame3.columns.name = 
'state' 


In [65]: frame3 


Out[65]: 

state Nevada Ohio 
year 

2000 NaN 二 5 
2001 2.4 1.7 
2002 2.9 3.6 


跟 Series 一 样 ，values 属 性 也 会 以 二 维 ndarray 
的 形式 返回 DataFrame 中 的 数据 : 


In [66]: frame3.values 


Out[66]: 

array([[ nan, 1.5]， 
[ 2.4, 1.7], 
[ 2.9, 3.6]]) 


如 有 果 DataFrame 各 列 的 数据 类 型 不 同 ， 则 值 数 
组 的 数据 类 型 束 会 选用 能 莱 容 所 有 列 的 数据 类 
In [67]: frame2.values 
Out[67] : 
array([[2000, Ohio, 1.5, nan], 
[2001, Ohio, 1.7, -1.2], 
[2002, Ohio, 3.6, 


6 
[2001, Nevada, 2.4, -1.5] 
[2002, Nevada, 2.9 


索引 对 象 


pandas 的 索引 对 象 负责 管理 轴 标 答 和 其 他 元 数 
据 (比如 轴 名 称 等 ) 。 构 建 Series 或 DataFrame 
上 时， 所 用 到 的 任何 数组 或 其 他 序列 的 标签 都 会 被 
转换 成 一 个 Index: 


In [68]: obj = Series(range(3), index=['a', 'b', 'c']) 
In [69]: index = obj.index 


In [70]: index 
Out[70]: Index([a, b, cl], dtype=object) 


In [71]: index[1:] 
Out[71]: Index([b, cl], dtype=object) 


Index 对 象 是 不 可 修改 的 (immutable) ， 因 此 
用 户 不 能 对 其 进行 修改 : 


In [72]: Index[1] = 'd' 

Exception Traceback (most 
recent call last) 

<ipython-input-72-676fdeb26a68> in <module>() 

----> 1 index[1] = 'd' 


/Users/wesm/code/pandas/pandas/core/index.pyc in _ setitem _ 
(self, key, value) 


302 def _ setitem (self, key, value): 

303 """Disable the setting of values.""" 
--> 304 raise Exception(str(self. class )+' 
object is immutable') 

305 

306 def _ getitem (self, key): 


Exception: <class 'pandas.core.index.Index'> object is 
immutable 


不 可 修改 性 非常 重要 ， 因 为 这 样 才能 使 Imndex 
对 和 象 在 多 个 数据 结构 之 间 安 全 共 至 : 


In [73]: index = pd.Index(np.arange(3)) 
In [74]: obj2 = Series([1.5, -2.5, 0], index=index) 


In [75]: obj2.index is index 
Out[75]: True 


表 5-2 列 出 了 pandas 库 中 内 置 的 Index 类 。 由 于 
开发 人 员 的 不 懈 努 力 ，Index 甚 至 可 以 被 继承 从 而 
实现 特别 的 轴 索 引 功 能 。 


注意 : 虽然 大 部 分 用 户 都 不 需要 知道 太 多 关 
于 Index 对 和 象 的 细 广 ， 但 它们 确实 古 pandas 数 据 模 
型 的 重要 组 成 部 分 。 


表 5-2: pandas 中 主要 的 Index 对 象 


类 说 明 

Index 最 泛 化 的 Index 对 象 ， 将 轴 标 签 表示 为 一 个 由 Python 对 象 组 成 的 NumpPy 
数组 

Int64Index 针对 整数 的 特殊 Index 

Multilndex “层次 化 ”索引 对 象 ， 表 示 单 个 轴 上 的 多 层 索 引 。 可 以 看 做 由 元 组 组 
成 的 数组 


Datetimelndex “存储 纳 秒 级 时 间 惟 〈 用 NumPy 的 datetime64 类 型 表示 ) 
Periodlndex 针对 Period 数 据 (时 间 间 隔 ) 的 特殊 Index 


除了 长 得 像 数 组 ，Index 的 功能 也 类 似 一 个 固 
定 大 小 的 集合 : 


In [76]: frame3 


Out[76]: 

state Nevada Ohio 
year 

2000 NaN ;5 
2001 2.4 卫 了 
2002 2.9 3.6 


In [77]: 'Ohio' in frame3.columns 
Out[77]: True 


In [78]: 2003 in frame3.index 
Out[78]: False 


每 个 索引 者 有 一 些 方法 和 属性 ， 它 们 可 用 于 
设置 逻辑 并 回答 有 天 该 汉 引 所 包含 的 数据 的 第 见 


问题 。 表 5-3 列 出 了 这 些 函 


类 Yo 


表 5-3: Index 的 方法 和 属性 


方法 
append 
diff 
intersection 
union 

isin 

delete 

drop 

insert 
is_monotonic 
is_unique 


unique 


说 明 

连接 另 一 个 Index 对 象 ， 产 生 一 个 新 的 Index 
计算 差 集 ， 并 得 到 一 个 Index 

计算 交集 

计算 并 集 

计算 一 个 指示 各 值 是 否 都 包含 在 参数 集合 中 的 布尔 型 数组 
删除 索引 i 处 的 元 素 ， 并 得 到 新 的 Index 
删除 传 入 的 值 ， 并 得 到 新 的 Index 

将 元 素 插入 到 索引 i 处 ， 并 得 到 新 的 Index 

当 各 元 素 均 大 于 等 于 前 一 个 元 素 时 ， 返 回 True 
当 Index 没 有 重复 值 时 ， 返 回 True 

计算 Index 中 唯一 值 的 数组 


基本 功能 


本 三 中 ， 我 将 介绍 控 作 Series 和 DataFrame 中 
的 数据 的 基本 手段 。 后 续 章 世 将 更 加 深入 地 挖掘 
pandas 在 数据 分 析 和 处 理 方面 的 功能 。 本 书 不 是 
pandas 库 的 详尽 文档 ， 主要 天 注 的 是 最 重要 的 功 
能 ， 那 些 不 大 常用 的 内 容 〈 也 就 是 那些 更 深奥 的 
内 容 ) 就 交 给 你 自己 去 摸索 吧 。 


重新 索引 


pandas 对 象 的 一 个 重要 方法 古 reindex， 其 作用 
是 创建 一 个 适应 新 索引 的 靳 对 象 。 以 之 前 的 一 个 
们 蛙 示 例 来 说 : 


In [79]: obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 
‘a Go 

In [80]: obj 

Out[80]: 

d 4. 
7 


DO ON JI 


b 
a 
C 


1 
JI 


调用 该 Series 的 reindex 将 会 根据 新 索引 进行 重 
。 如 果 某 个 索引 信 当 前 不 存在 ， 束 引入 缺失 


In [81]: obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e']) 


In [82]: obj2 


Out[82] : 
a -5.3 
b 7.2 
C 3.6 
d 4.5 
e NaN 
In [83]: obj.reindex(['a', 'b', 'c', 'd', 'e'], fill value=0) 
Out[83]: 
a -5.3 
b 7.2 
C 3.6 
d 4.5 
e 0.0 


对 于 时 间 序 列 这 样 的 有 序数 据 ， 重 狐 过 3 引 时 
可 能 需要 做 一 些 插值 处 理 。method 选 项 即 可 达到 
此 目的 ， 例 如 ， 使 用 ff 可 以 实现 前 问 值 填充 : 


In [84]: obj3 = Series(['blue', 'purple', 'yellow'|], index= 


[0, 2, 4]) 

In [85]: obj3.reindex(range(6), method="'ffill') 
Out[85]: 

0 blue 

1 blue 

2 purple 

3 purple 

4 yellow 

5 yellow 


表 5-4 列 出 了 可 用 的 method 选 项 。 其 实 我 们 有 
时 和 需要 比 前 同和 后 向 填充 更 为 精准 的 插值 方式 。 


表 5-4: reindex 的 (插值 ) method 选 项 


参数 说 明 
fill 或 bad 前 向 填充 (或 搬运 ) 值 


bfil 或 backfill 后 向 填充 (或 搬运 ) 值 


对 于 DataFrame，reindex 可 以 修改 〈 行 ) 索 
引 、 列 ， 或 两 个 都 修改 。 如 果 仅 传 入 一 个 序列 ， 
则 会 重 狐 索 引 | 行 : 


In [86]: rane = = DataFrame(np.arange(9).reshape((3, 3)), 
index= [ a', 'Cc', 'd! 
columns=['Ohio', 'Texas', 


'california， ] ) 


In [87]: frame 
Out[87] : 

Ohio Texas  _ California 
a 0 1 2 
C 3 4 5 
d 6 7 8 
In [88]: frame2 = frame.reindex(['a', 'b', 'c', 'd']) 
In [89]: frame2 
Out[89] 

Ohio Texas California 
a 0 1 2 
b NaN NaN NaN 
C 3 4 5 
d 6 7 8 


使 用 columns 天 键 字 即 可 重新 索引 列 : 


In [90]: states = ['Texas', 'Utah', 'California'] 


In [91]: frame.reindex(columns=states) 


Out[91] : 

Texas Utah California 
a 1 NaN 2 
C 4 NaN 5 
d 7 NaN 8 


也 可 以 同时 对 行 和 列 进行 重新 索引 ， 而 插值 
则 只 能 按 行 应 用 ( 即 轴 0) 


In [92]: frame.reindex(index=['a', 'b', 'c', 'd'], 
method='ffil1'， 
de columns=states) 


Out[92] : 

Texas Utah California 
a 1 NaN 2 
b 1 NaN 2 
C 4 NaN 5 
d 7 NaN 8 


利用 ix 的 标签 索引 功能 ， 重 新 索引 任务 可 以 变 
得 更 简洁: 


In [93]: frame.ix[['a', 'b', 'c', 'd'], states] 


Out[93]: 

Texas Utah California 
a 1 NaN 2 
b NaN NaN NaN 
C 4 NaN 5 
d 7 NaN 8 


表 5-5 列 出 了 reindex 函 数 的 各 参数 及 诉 明 。 


表 5-5: reindex 函 数 的 参数 

参数 说 明 

index 用 作 索 引 的 新 序列 。 既 可 以 是 Index 实 例 ， 也 可 以 是 其 他 序列 型 的 Python 数 
据 结构 。Index 会 被 完全 使 用 ， 就 像 没有 任何 复制 一 样 

method ”插值 (填充) 方式 ， 具 体 参 数 请 参见 表 5-4 

fil_value “在 重新 索引 的 过 程 中 ， 需 要 引入 缺失 值 时 使 用 的 替代 值 


limit 前 向 或 后 向 填充 时 的 最 大 填充 量 
level 在 Multilndex 的 指定 级 别 上 匹配 简单 索引 ， 否 则 选取 其 子 集 
copy 默认 为 True， 无 论 如 何 都 复制 ， 如 果 为 False， 则 新 旧 相 等 就 不 复制 


丢弃 指定 轴 上 的 项 


丢弃 某 条 轴 上 的 一 个 或 多 个 项 很 倍 单 ， 只 
有 一 个 索引 数组 或 列表 即 可 。 由 于 需要 执行 一 些 
数据 整理 和 集合 逻辑 ， 所 以 drop 方 法 返回 的 是 一 
个 在 指定 轴 上 删除 了 指定 值 的 新 对 和 象 : 
In [94]: obj = Series(np.arange(5.), index=['a', 'b', 'c', | 
'd','e']) 
In [95]: new_ obj = obj.drop('c') 


In [96]: new_obj 


out[96]: 
a 0 
b 1 
d 5 
e 4 


In [97]: obj.drop(['d', 'c']) 


Out[97] 
a 0 
b 1 


本 对 于 DataFrame， 可 以 删除 任意 轴 上 的 索引 


In [98]: data = DataFrame(np.arange(16).reshape((4, 4)), 
index=['Ohio', 'Colorado', 'Utah', 


'New York'], 
gr columns=['one', 'two', 'three', 

'four']) 
In [99]: data.drop(['Colorado', 'Ohio']) 
Out[99]: 

one two three four 
Utah 8 9 10 11 
New York 12 13 14 15 
In [100]: data.drop('two', axis=1) [101] : 
data.drop(['two', 'four'], axis=1) 
Out[100]: Out[101]: 

one three four one three 
Ohio 0 2 3 Ohio 0 2 
Colorado 4 6 7 Colorado 4 6 
Utah 8 10 11 Utah 8 10 
New York 12 14 15 New York 12 14 


条 引 、 远 取 和 和 过渡 


Series 索 引 (obj[...]) 的 工作 方式 类 似 于 
NumPy 效 组 的 索引 ， 只 不 过 S$eries 的 索引 全 不 只 十 
整数 。 下 面 是 儿 个 例子 : 


In [102]: obj = Series(np.arange(4.), index=['a', 'b', 'c', 


'd']) 


In [103]: obj['b'] In [104]: obj[1] 

Out[103]: 1.0 Out[104]: 1.0 

In [105]: obj[2:4] In [106]: obj[['b', 'a', 'd']] 
Out[105]: Out[106]: 


C 2 b 1 


d 3 a 0 
d 3 
In [107]: obj[[1, 3]] In [108]: obj[obj < 2] 
Out[107]: Out[108]: 
b 1 a 0 
d 3 b 1 


利用 标签 的 切片 运算 与 普通 的 Python 切片 运 
算 不 同 ， 其 末端 是 包含 的 (inclusive) “1. 


In T1609]: obj[f'b':'c'] 


out[109] : 
b 1 
c 2 


设置 的 方式 也 很 简单 : 
In TiioJ:， 05jTrpbrrcr = 5 


In [111]: obj 


Out[111]: 
a 0 
b 5 
c 5 
d 3 


如 你 所 见 ， 对 DataFrame 进 行 守 3 其 实 束 是 获 
取 一 个 或 多 个 列 : 


In [112]: data = DataFrame(np.arange(16).reshape((4, 4)), 
oy index=['O0hio', 'Colorado', 'Utah', 
'New York'], 
i columns=['one', 'two', 'three', 
'four']) 


In [113]: data 
Out[113]: 


one two three 
Ohio 0 1 2 
Colorado 4 5 6 
Utah 8 9 10 
New York 12 13 14 
In [114]: data['two'] 
Out[114] : 
Ohio 1 
Colorado 5 
Utah 9 
New York 13 
Name : two 


In [115]: 
Out[115] : 


Ohio 
Colorado 
Utah 
New York 


data[['three '， 


three 
2 

6 

10 

14 


one 
0 

4 

8 
12 


'one']] 


这 种 索引 方式 有 几 个 特殊 的 情况 。 自 先 通 过 
切 厂 或 布尔 型 数组 选取 行 : 


In [116]: data[ :2] 
data[ldata['three'] > 5] 
Out[116]: 


one two three 
three four 
Ohio © 1 2 
6 7 
Colorado 4 5 6 
10 11 
14 15 


four 


3 


7 


In [117]: 


Out[117]: 


Colorado 


Utah 


New York 


有 些 读 首 可 能 会 认为 这 不 太 合乎 逻辑 ， 但 这 
种 语法 的 的 确 确 来 源 于 实践 。 另 一 种 用 法 是 通过 
布尔 型 DataFrame 〈 比 如 下 面 这 个 由 标量 比较 运算 


得 出 的 ) 进行 索引 : 


In [118]: data < 5 


Out[118] : 

one two three four 
Ohio True True True True 
Colorado True False False False 


Utah False False False False 
New York False False False False 


In [119]: data[data < 5] = 0 


In [120]: data 


Out[120] : 

one two three four 
Ohio 0 0 0 0 
Colorado 0 5 6 7 
Utah 8 9 10 二 | 
New York 12 13 14 15 


这 上 段 代码 的 目的 是 使 DataFrame 在 语法 上 更 像 


ndarray ° 


为 了 在 DataFrame 的 行 上 进行 标签 索引 ， 我 引 
入 了 专门 的 索引 字段 x。 它 使 你 可 以 通过 NumPy 
式 的 标记 法 以 及 轴 标 人 签 从 DataFrame 中 选取 行 和 列 
的 子 集 。 之 前 曾 提 到 过 ， 这 也 是 一 种 重新 索引 的 
傈 单 手 段 : 


In [121]: data.ix['Colorado', ['two', 'three'|]] 


Out[121] : 
two 5 
three 6 


Name: Colorado 


In [122]: data.ix[['Colorado', 'Utah'], [3, 0, 1]] 
Out[122]: 
four one two 


Colorado 7 0 5 

Utah 11 8 9 

In [123]: data.ix[2] In [124]: 
data.ix[:'Utah', 'two'] 

Out[123]: Out[124]: 
one 8 Ohio 


0 
two 9 Colorado 5 


three 10 Utah 9 
four 11 Name: two 
Name: Utah 


In [125]: data.ix[data.three > 5, :3] 


Out[125] : 

one two three 
Colorado 0 5 6 
Utah 8 9 10 
New York 12 13 14 


也 束 是 说 ， 对 pandas 对 和 象 中 的 数据 的 选取 和 重 
排 方 式 有 很 多 。 表 5-6 倘 单 总 结 了 针对 DataFrame 数 
据 的 大 部 分 选取 和 重 排 方式 。 在 使 用 层次 化 索引 
时 还 能 用 到 一 些 别 的 办 法 ( 稍 后 束 会 讲 到 ) 。 


注意 : 在 设计 pandas 时 ， 我 觉得 必须 输入 
frame[:,col] 才 能 选取 列 实在 有 些 唆 (而 且 还 很 容易 
出 错 ) ， 因 为 列 的 选取 是 一 种 最 常见 的 操作 。 于 
是 ， 我 就 把 所 有 的 标签 索引 功能 都 放 到 ix 中 了 。 


表 5-6: DataFrame 的 索引 选项 

类 型 说 明 

obj[val] 选取 DataFrame 的 单个 列 或 一 组 列 。 在 一 些 特殊 情况 下 会 
比较 便利 : 布尔 型 数组 (过滤 行 ) 、 切 片 ( 行 切 片 ) 、 布 
尔 型 DataFrame (根据 条 件 设置 值 ) 

obj.ix[val] 选取 DataFrame 的 单个 行 或 一 组 行 


表 5-6: DataFrame 的 索引 选项 ( 续 ) 


类 型 说 明 

obj.ix[:, val] 选取 单个 列 或 列子 集 

obj.ix[val1, val2] 同时 选取 行 和 列 

reindex 方 法 将 一 个 或 多 个 轴 匹 配 到 新 索引 

xs 方 法 根据 标签 选取 单行 或 单列 ， 并 返回 一 个 Series 
icol、irow 方 法 根据 整数 位 置 选取 单列 或 单行 ， 并 返回 一 个 Series 


get_value、set_value 方 法 ”根据 行 标签 和 列 标签 选取 单个 值 。 We 


详 注 2，get_value 方 法 是 克 取 ，set-value 方 法 
定 议 置 。 


算术 运算 和 数据 对 齐 


pandas 最 重要 的 一 个 功能 是 ， 它 可 以 对 不 同 陀 
引 的 对 象 进 行 算术 运算 。 在 将 对 象 相 加 时 ， 如 采 
存在 不 同 的 索引 对 ， 则 结 采 的 索引 束 是 该 索引 对 
的 并 集 。 我 们 来 看 一 个 简单 的 例子 : 


In [126]: si = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 
rid!' 'e']) 


In [127]: S2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 
ee 'e', 'f"', 'g']) 


In [128]: si In [129]: s2 
Out[128]: Out[129]: 
a 7.3 a =2;1 
€ -2.5 c 3.6 
d 3.4 e -1.5 
e 1.5 f 4.0 
g 3.1 


将 它们 相 加 束 会 产生 : 


In [130]: si + s2 


Out[130]: 
a 5.2 
C 下 ,并 
d NaN 
e 0.0 
f NaN 
g NaN 


自动 的 数据 对 齐 操作 在 不 重 到 的 索引 处 引入 
了 NA 值 计 43。 缺失 值 会 在 算术 运算 过 程 中 传播 。 


对 于 DataFrame， 对 齐 操作 会 同时 发 生 在 行 和 
列 上 : 


In [131]: df1 = DataFrame(np.arange(9.).reshape((3, 3)), 

columns=1list('bcd'), 
ed index=['Ohio', 'Texas', 

'Colorado']) 


In [132]: df2 = DataFrame(np.arange(12.).reshape((4, 3)), 
columns=1list('bde'), 


a index=['Utah', 'Ohio', 'Texas', 

'Oregon']) 
In [133]: df1 In [134]: df2 
Out[133]: Out[134]: 

b c d b d e 
Ohio 0 1 2 Utah 0 1 2 
Texas 3 4 5 Ohio 3 4 5 
Colorado 6 7 8 Texas 6 7 8 

Oregon 9 10 11 


把 它们 相 加 后 将 会 返回 一 个 新 的 DataFrame， 
其 索引 和 列 为 原来 那 两 个 DataFrame 的 并 集 : 


In [135]: df1i + df2 


Out[135]: 

b Cc d e 
Colorado NaN NaN NaN NaN 
Ohio 3 NaN 6 NaN 
Oregon NaN NaN NaN NaN 
Texas 9 NaN 12 NaN 
Utah NaN NaN NaN NaN 


在 算术 方法 中 十 充值 


在 对 不 同 索 引 的 对 象 进行 算术 运算 时 ， 你 可 
能 希望 当 一 个 对 象 中 某 个 轴 标 签 在 为 一 个 对 象 中 
找 不 到 时 填充 一 个 特殊 值 (比如 0) 

In [136]: df1i = DataFrame(np.arange(12.).reshape((3, 4)), | 

Columns=Jlist(' abcd ' ) ) 


In [137]: df2 = DataFrame(np.arange(20.).reshape((4, 5)), 
columns=]ist('abcde' )) 


In [138]: df1 In [139]: df2 
Out[138]: Out[139]: 

a b C d a b C d e 
© © 1 2 3 0 0 1 2 3 4 
1 4 5 6 7 1 5 6 7 8 9 
2 8 9 10 11 2 10 11 12 13 14 


3 15 16 17 18 19 


将 它们 相 加 时 ， 没 有 重 登 的 位 置 束 会 产生 NA 


In [140]: df1 + df2 
Out[140] : 

a b C d e 
© 0 2 4 6 NaN 
1 9 11 13 15 NaN 


2 18 20 22 24 NaN 
3 NaN NaN NaN NaN NaN 


使 用 df1 的 add 方 法 ， 传 入 df2 以 及 一 个 


fill value 参 数 : 


In [141]: dfi.add(df2, fill value=0) 
Out[141] : 

a b C d e 
0 0 2 4 6 4 
1 9 11 13 15 9 
2 18 20 22 24 4 
3 15 16 17 18 9 


与 此 类 似 ， 在 对 Series 或 DataFrame 重 新 索引 
时 ， 也 可 以 指定 一 个 填充 值 : 


In [142]: df1i.reindex(columns=df2.columns, fill_ value=0) 


Out[142]: 

a b C d e 
0 0 1 2 3 0 
1 4 5 6 7 0 
2 8 9 10 11 0 


表 5-7: 灵活 的 算术 万 法 

方法 “说明 

add “用 于 加 法 (+) 的 方法 
sub ”用 于 减法 (一) 的 方法 
div ”用 于 除法 (/) 的 方法 
mul “用 于 乘法 (*) 的 方法 


DataFrame 和 Series 之 间 的 运算 


跟 NumPy 数 组 一 样 ，DataFrame 和 Series 之 间 
算术 运算 也 是 有 明确 规定 的 。 先 来 看 一 个 具有 局 
发 性 的 例子 ， 计 算 一 个 二 维 数组 与 其 某 行 之 间 的 


莽 : 


In [143]: arr = np.arange(12.).reshape((3, 4)) 


In [144]: arr 

Out[144] : 

array([[ 0.， ;> 2., 3.], 
[ 4., 5., 6., 7.]， 
[ 8., 9., 10., 11.]]) 


In [145]: arr[o] 
Out[145]: array([ 0., 1., 2., 3.]) 


In [146]: arr - arr[0] 
Out[146] : 
array([[ 0., 0., 0., 
[ 4., 4., 4., 
[ 8.， 了 了 
这 束 叫 做 广播 (broadcasting) ， 第 12 章 将 对 
此 进行 详细 讲解 。DataFrame 和 和 Series 之 间 的 运算 
甜 不 多 也 是 如 此 : 


.]， 
.] 
,]]) 


In [147]: frame = DataFrame(np.arange(12.).reshape((4, 3)), 


columns=1list('bde'), 
ee index=['Utah', 'Ohio', 'Texas', 
'Oregon']) 


In [148]: series = frame.ix[0] 


In [149]: frame In [150]: series 
Out[149]: Out[150]: 

b d e b 0 
Utah 0 1 2 d 1 
Ohio 3 4 5 e 2 
Texas 6 7 8 Name: Utah 
Oregon 9 10 11 


驮 认 情 况 下 ，DataFrame 和 Series 之 间 的 算术 
运算 会 将 Series 的 索引 匹配 到 DataFrame 的 列 ， 然 
后 沿 着 行 一 直 问 下 广播 : 


In [151]: frame - series 


Out[151] : 

b d e 
Utah 0 0 0 
Ohio 3 3 3 
Texas 6 6 6 
Oregon 9 9 9 


如 果 某 个 索引 值 在 DataFrame 鸭 列 或 Series 的 ] 
索引 中 找 不 到 ， 则 参与 运算 的 两 个 对 象 吏 会 被 重 
狐 索 引 以 形成 并 集 : 


In [152]: series2 = Series(range(3), index=['b', 'e', 'f"']) 


In [153]: frame + series2 


Out[153] : 

b d e f 
Utah © NaN 3 NaN 
Ohio 3 NaN 6 NaN 
Texas 6 NaN 9 NaN 
Oregon 9 NaN 12 NaN 


如 琳 你 布 户 匹配 行 且 在 列 上 广播 ， 则 必须 使 
用 算术 运算 方法 。 例 如 : 


In [154]: series3 = frame['d'] 


In [155]: frame In [156]: series3 
Out[155] : Out[156] : 

b d e Utah 1 
Utah 0 1 2 Ohio 4 
Ohio 3 4 5 Texas 7 
Texas 6 7 8 Oregon 10 
Oregon 9 10 11 Name: d 


In [157]: frame.sub(series3, axis=0) 


Out [157] : 

b d e 
Utah 二 -和 ”过 
Ohio = 二 “和 1 
Texas 1 0 1 
Oregon -1 0 1 


传 入 的 轴 号 惑 是 硕 望 匹配 的 轴 “。 在 本 例 中 ， 
我 们 的 目的 是 匹配 DataFrame 的 行 录 3| 并 进行 广 


播 。 译注 4 


苹 数 应 用 和 了 映 喘 


NumPy 的 ufuncs (元 素 级 数组 方法 ) 也 可 用 于 
操作 pandas 对 象 : 


In [158]: frame = DataFrame(np.random.randn(4, 3), 
Columns=]list('bde')， 


E index=['Utah', 'Ohio', 'Texas', 

'Oregon']) 
In [159]: frame In [160]: 
np.abs(frame) 
Out[159]: Out[160]: 

b d e b 
d e 
Utah -0.204708 0.478943 -0.519439 Utah 0.204708 
0.478943 0.519439 
Ohio -0.555730 1.965781 1.393406 Ohio 0.555730 
1 .965781 1 .393406 
Texas 0.092908 0.281746 0.769023 Texas 0 .092908 
0.281746 0.769023 
Oregon 1.246435 1.007189 -1.296221 Oregon 1.246435 


1.007189 1.296221 


男 一 个 常见 的 操作 是 ， 将 函数 应 用 到 由 各 列 
或 行 所 形成 的 一 维 数 组 上 。DataFrameHiJapply 方 法 
即 可 实现 此 功能 


In [161]: f = lambda x: x.max() - x.min() 


In [162]: frame.apply(f) In [163]: frame.apply(f, 
axis=1) 

Out[162]: Out[163]: 

b 1.802165 Utah 0.998382 


d 1.684034 Ohio 2.521511 


e 2.689627 Texas 0.676115 
Oregon 2.542656 


许多 最 为 第 见 的 数组 统计 功能 都 被 实现 成 
DataFrame 的 方法 (如 sum 和 mean) ， 因 此 无 需 使 
用 apply 方 法 。 


除 标量 值 外 ， 传 递 给 apply 的 函数 还 可 以 返回 
由 多 个 值 组 成 有 的 Series: 


In [164]: def f(x): 

0 return Series([x.min(), x.max()], index=['min', 
'max' ]) 
In [165]: frame.apply(f) 

b d e 
min -0.555730 0.281746 -1.296221 
max 1.246435 1.965781 1.393406 


此 外 ， 元 素 级 的 Python 函数 也 是 可 以 用 的 。 
假如 你 想得到 frame 中 各 个 浮 点 值 的 格式 化 字符 
串 ， 使 用 applymap 即 可: 


In [166]: format = lambda x: '%.2f' % x 


In [167]: frame.applymap(format) 


Out[167]: 

b d e 
Utah -0.20 0.48 -0.52 
Ohio -0.56 1.97 1.39 
Texas 0.09 0.28 0.77 


Oregon 1.25 1.01 -1.30 


之 所 以 叫做 applymap， 征 因为 Series 有 一 个 用 
于 应 用 元 素 级 函 效 的 map 方 法 : 


In [168]: frame['e'].map(format) 


out[168] : 

Utah -0.52 
Ohio 1.39 
Texas 0.77 
Oregon -1.30 
Name: e 


排序 和 排名 


根据 条 件 对 数据 集 排序 (sorting) 也 是 一 种 重 
要 的 内 置 运算 。 要 对 行 或 列 索引 进行 排序 ( 按 字 
由 顺序 ) ， 可 使 用 sort_jindex 方 法 ， 它 将 返回 一 个 
已 排序 的 新 对 和 象 : 


In [169]: obj = Series(range(4), index=['d', 'a', 'b', 'c']) 


In [170]: obj.sort_index() 


Out[170] : 
a 1 
b 2 
C 3 
d 0 


而 对 于 DataFrame， 则 可 以 根据 任意 一 个 轴 上 
的 索引 进行 排序 : 


In [171]: frame = DataFrame(np.arange(8).reshape((2, 4)), 


index=['three', 'one'], 

columns=['d', 'a', 'b', 'c']) 
In [172]: frame.sort_index() In [173]: 
frame.sort_index(axis=1) 
Out[172] : Out[173] : 


d a b c a b 
one 4 5 6 7 three 1 2 
© 1 2 3 one 5 6 


四 数据 上 默认 是 按 升序 排序 的 ， 但 也 可 以 降序 排 
记 : 


In [174]: frame.sort_index(axis=1, ascending=False) 
Out[174]: 


d c b a 
three 0 3 2 1 
one 4 7 6 5 


若 要 按 值 对 Series 进 行 排 序 ， 可 使 用 其 order 方 
法 : 
In [175]: obj = Series([4, 7, -3, 2]) 


In [176]: obj.order() 


Out[176]: 
2 -3 
3 2 
0 4 
站 7 


在 排序 时 ， 任 何 缺 失 值 默认 都 会 补 放 到 Series 
的 末尾 : 


In [177]: obj = Series([4, np.nan, 7, np.nan, -3, 2]) 


In [178]: obj.order() 
Out[178]: 
4 -3 


PNO 
下 


在 DataFrame 上 ， 你 可 能 硕 望 根据 一 个 或 多 个 


列 中 的 值 进 行 排序 。 将 一 个 或 多 个 列 的 名 字 传 弟 
给 by 选项 即 可 过 到 该 目的 : 


可 


In [179]: frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 


90, 1]}) 
In [180]: frame In [181]: frame.sort_index(by='b ') 
Out[180] : Out[181] : 
a b a b 
0 0 4 2 0 -3 
| 3 1 2 
2 0 -3 0 © 4 
3 1 2 ds .1 


要 根据 多 个 列 进行 排序 ， 传 入 名 称 的 列表 即 


In [182]: frame.sort_index(by=['a', 'b']) 
Out[182]: 

a b 
2 0 -3 
4 
2 
7 


排名 (ranking) 跟 排序 关系 密切 ， 且 它 会 增 


设 一 个 排名 值 《从 1 开始 ， 一 直到 数组 中 有 效 数 据 
的 数量 ) 。 它 跟 numpy.argsort 产 生 的 间接 排序 索引 
才 不 多 ， 只 不 过 它 可 以 根据 某 种 规则 破坏 平 级 天 
系 。 接 下 来 介绍 Series 和 DataFrame 的 rank 方 法 。 默 
认 情 况 下 ，rank 是 通过 “为 各 组 分 配 一 个 平均 排 

名 ”的 方式 破坏 平 级 天 系 的 : 


In [183]: obj = Series([7，-5，7，4，2，0，4]) 


In [184]: obj.rank() 
Out[184] : 
6.5 


DO 上 wh 局 
和 NOPPOP 
Ol©O©Ono 


{OR UR ETE 大 有 和 由 出 现 的 顺序 给 出 排 
名 主 ; 


In [185]: obj.rank(method= 'first  ) 


out[185] : 
9 6 
1 1 
2 7 
3 4 
站 强 
5 2 
6 5 


当然 ， 你 也 可 以 按 降序 进行 排名 : 


In [186]: obj.rank(ascending=False, method='max') 


out[186] : 
0 2 
1 7 
2 2 
3 4 
4 5 
5 6 
6 4 


表 5-8 列 出 了 所 有 用 于 破坏 平 级 天 系 的 method 
远 项 。DataFrame 可 以 在 行 或 列 上 计算 排名 : 


In [187]: frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0， 
1, 0, 1], 
ee. 'c': [-2, 5, 8, -2.5]}) 
In [188]: frame In [189]: frame.rank(axis=1) 
Out[188]: Out[189]: 
a b C a b c 
0 0 4.3 -2.0 0 2 3 1 
1 1 7.0 5.0 1 1 3 2 
2 0 -3.0 8.0 2 2 1 3 
3 1 2.0 -2.5 3 2 3 1 
表 5-8: 排名 时 用 于 破坏 平 级 关系 的 method 选 项 
method 说 明 
'average' 默认 : 在 相等 分 组 中 ， 为 各 个 值 分 配 平均 排名 
min' 使 用 整个 分 组 的 最 小 排名 
max' 使 用 整个 分 组 的 最 大 排名 


按 值 在 原始 数据 中 的 出 现 顺 序 分 配 排名 


市 有 重复 值 的 轴 索 引 


直到 目前 为 止 ， 我 所 介绍 的 所 有 范例 都 有 看 
。 虽然 许 多 pandas 函 效 
(如 reindex) 都 要 求 标签 唯一 ， 但 这 并 不 是 强制 
性 的 。 我 们 来 看 看 下 面 这 个 人 简单 的 市 有 重复 索引 
值 有 的 Series: 


唯一 的 轴 标 签 (索引 值 ) 


In [190]: obj = Series(range(5), index=['a', 'a', 'b', 'b', 


c'] 


In [191]: obj 


out[191] : 
a 0 
a 1 


b 


2 


b 3 
c 4 


索引 的 is_unigue 属 性 可 以 告诉 你 它 的 值 古 
是 唯一 的 : 


In [192]: ob]j.index.is_unique 
Out[192]: False 


对 于 市 有 重复 值 的 淋 3 引 ， 数 据 选 取 的 行为 将 
会 朋 些 不 同 。 如 琳 某 个 索引 对 应 多 个 值 ， 则 返回 
en 而 对 应 单个 值 的 ， 则 返回 一 个 标量 


In [193]: obj['a'] In [194]: obj['c'] 
out [193] : out[194]: 4 

a 0 

a 1 


对 DataFrame 的 行进 行 索引 时 也 是 如 此 : 


In [195]: df = DataFrame(np.random.randn(4, 3), index=['a', 
es 'b']) 


'a', 1b 
In [196]: df 
Out[196] : 

0 1 2 
a 0.274992 0 .228913 1.352917 
a 0.886429 -2.001637 -0.371843 
b 1.669025 -0.438570 -0.539741 
b 0.476985 3.248944 -1.021228 
In [197]: df.ix['b'] 
Out[197]: 

0 1 2 
b 1.669025 -0.438570 -0.539741 
b 0.476985 3.248944 -1.021228 


译注 1: 即 封 财 区 间 。 
详 注 3: 由 于 本 书 中 多 次 出 现 “ 非 重 
癌 ”(overlapping) 这 个 词 ， 所 以 需要 简单 说 明 一 
下 。 例 如 ,， “飞机 场 * 跟 “ 拖拉 机 ”都 有 个 机”， 、 
可 以 认为 这 两 个 字符 串 是 “ 重 夫 ”的 ，; 
是 "和 “ 敌 穷 挫 " 的 情况 自然 就 是 " 非 重 杞 了。 注 
虽然 这 里 没有 任何 顺序 和 连续 的 概念 ， 但 有 
此 地方 是 需要 考虑 顺序 和 连续 的 
译注 4: 这 里 需要 补充 说 明 一 下 ， 作 者 反复 强 
调 “ 广 播 * 会 在 第 12 章 介绍 ， 所 以 如 果真 看 不 懂 这 
里 就 等 到 也 意 学 完 再 看 不 述 。 译 者 已 经 尽量 把 原 
文 扩展 的 描述 扩展 开 ， 但 是 文字 描述 始终 没有 图 
形 更 具体 。 例 如 ， 你 可 以 打开 一 个 Excel， 随 意 找 
一 排 单 元 格 并 输入 一 些 文 字 (注意 是 一 排 ) ， 然 
后 选中 这 些 单元 格 ， 将 鼠标 移 至 选区 右 下 角 ， 当 
指针 变 为 加 号 时 ， 按 住 癌 下 拉 几 行 ， 这 就 是 “ 沿 行 
癌 下 广播 ”。 
译注 5: 类 似 于 稳定 排序 。 


汇总 和 计算 搞 述 i 各 计 


pandas 对 象 拥有 一 组 党 用 的 数学 和 统计 方法 。 
它们 大 部 分 都 属于 约 简 和 汇 忌 统计 ， 用 于 从 Series 
中 提取 单个 值 (如 sum 或 mean) 或 从 DataFrame 的 
行 或 列 中 提取 一 个 Series。 跟 对 应 的 NumPy 数 组 方 
法 相 比 ， 它 们 都 是 基于 没有 缺失 数据 的 假设 而 构 
建 的 。 接 下 来 看 一 个 侧 单 的 DataFrame: 


In 有 df = DataFrame([[1.4, np.nan], [7.1, -4.5], 
[np.nan, nps nan], [0. 75, -1.3]], 
index=['a' Sy ‘Ce, "dd: 
columns=[' one’ itwo， ] ) 

In [199]: df 

Out[199] : 

one two 

a 1.40 NaN 

b 7.10 -4.5 

C NaN NaN 

d 0.75 -1.3 


调用 DataFrame 的 sum 方 法 将 会 返回 一 个 侣 有 
列 小 计 的 Series: 


In [200]: df.sum() 


out[200] : 
one 9.25 
two -5.80 


传 入 axis=1 将 会 按 行进 行 求 和 运算 : 


In [201]: df.sum(axis=1) 


Out[201]: 
a 1.40 
b 2.60 
c NaN 
d -0.55 


NA 值 会 自动 被 排除 ， 除 非 整 个 切片 (这 里 指 
| J 都 是 NA。 通 过 skipna 选 项 可 以 禁 
该 功能 : 


In [202]: df.mean(axis=1, skipna=False) 


Out [202]: 

a NaN 
b 1.300 
c NaN 
d 9.275 


表 5-9 列 出 了 这 些 约 简 方 法 的 稼 用 选项 


表 5-9: 约 简 方法 的 选项 


选项 说 明 

axis 约 简 的 轴 。DataFrame 的 行 用 0， 列 用 1 

skipna 排除 缺失 值 ， 默 认 值 为 True 

level 如 果 轴 是 层次 化 索引 的 〈 即 Multilndex) ， 则 根据 level 分 组 约 简 


有 些 方法 (如 idxmin 和 idxmax) 返回 的 是 间 
接 统计 (比如 达到 最 小 值 或 最 大 值 的 索引 ) 


In [203]: df.idxmax() 
Out [203]: 
one b 
two d 


为 一 些 方 法 则 是 系 计 型 的 : 


In [204]: df.cumsum() 
Out[204]: 
one two 
a 1.40 NaN 
b 8.50 -4.5 
C NaN NaN 
d 9.25 -5.8 


还 有 一 种 方法 ， 它 既 不 十 约 何 型 也 不 是 累计 
型 。describe 束 古 一 个 例子 ， 它 用 于 一 次 性 产生 多 
人 


In [205]: df.describe() 


Out[205]: 

one two 
count 3.000000 2.000000 
mean 3.083333 -2.900000 
std 3.493685 2.262742 
min 0.750000 -4.500000 
25% 1.075000 -3.700000 
50% 1.400000 -2.900000 
75% 4.250000 -2.100000 
max 7.100000 -1.300000 


对 于 韭 数 值 型 数据 ，describe 会 产生 男 外 一 种 


六 总 统计 : 
In [206]: obj = Series(['a', 'a', 'b', 'c'] * 4) 


In [207]: obj.describe() 
Out[207]: 

count 16 

unique 3 

top a 

freq 8 


表 5-10 列 出 了 所 有 与 手 述 统计 相关 的 方法 。 


表 5-10: 描述 和 汇总 统计 


方法 说 明 

count 非 NA 值 的 数量 

describe 针对 Series 或 各 DataFrame 列 计算 汇总 统计 
min、max 计算 最 小 值 和 最 大 值 


计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 位 置 (整数 ) 
计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 值 


argmin、argmax 


idxmin 、idxmax 


quantile 计算 样本 的 分 位 数 (0 到 1) 
sum 值 的 总 和 

mean 值 的 平均 数 

median 值 的 算术 中 位 数 (50% 分 位 数 ) 
mad 根据 平均 值 计算 平均 绝对 离 差 
var 样本 值 的 方差 

std 样本 值 的 标准 差 


表 5-10: 描述 和 汇总 统计 ( 续 ) 


JS 
skew 
kurt 


cuUmSuUm 


cummin、cummax 


cumprod 
diff 
pct_change 


说 明 

样本 值 的 偏 度 〈 三 阶 矩 ) 

样本 值 的 峰 度 《四 阶 矩 ) 
样本 值 的 累计 和 

样本 值 的 累计 最 大 值 和 累计 最 小 值 
样本 值 的 累计 积 

计算 一 阶 差分 (对 时 间 序 列 很 有 用 ) 
计算 百分数 变化 


相关 系数 与 协 方 剧 


有 些 汇总 统计 《如 相关 系数 和 协 方差 ) 是 通 
过 参数 对 计算 出 来 的 。 我 们 来 看 儿 个 DataFrame， 
它们 的 数据 来 目 Yahoo!Finance 的 股票 价格 和 成 交 
量 : 


import pandas.1o.data as web 


all_ data = {} 
for ticker in ['AAPL', 'IBM', 'MSFT', '6G006']: 

all data[ticker|] = web.get data yahoo(ticker, '1/1/2000', 
'1/1/2010') 


price = DataFrame({tic: data['Adj Close '] 
for tic, data in 

all data.iteritems( )}) 

volume = DataFrame({tic: data[' Volume '] 
for tic, data in 

all data.iteritems()}) 


接 下 来 计算 价格 的 百分数 变化 : 
In [209]: returns = price.pct_change() 


In [210]: returns.tail() 


Out[210]: 

AAPL GOOG IBM MSFT 
Date 
2009-12-24 0.034339 0.011117 0.004420 0.002747 
2009-12-28 0.012294 0.007098 0.013282 0.005479 
2009-12-29 -0.011861 -0.005571 -0.003474 0.006812 
2009-12-30 0.012147 0.005376 0.005468 -0.013532 
2009-12-31 -0.004300 -0.004416 -0.012609 -0.015432 


Series 罗 corr 方 法 用 于 计算 两 个 Series 中 重合 
的 、 非 NA 的 、 按 索引 对 齐 的 值 的 相关 系数 。 与 此 
类 似 ，cov 用 于 计算 协 方差 : 


In [211]: returns.MSFT.corr(returns.IBM) 
Out[211]: 0.49609291822168838 


In [212]: returns.MSFT.cov(returns.IBM) 
Out[212]: 0.00021600332437329015 


DataFrame 的 corr 和 cov 方 法 将 以 DataFrame 的 
形 陈 退回 完整 的 相关 系数 或 协 方差 矩阵 : 


In [213]: returns.corr() 


Out[213]: 

AAPL GOOG IBM MSFT 
AAPL 1.000000 0.470660 0.410648 0.424550 
GOOG 0.470660 1.000000 0.390692 0.443334 
IBM 0.410648 0.390692 1.000000 0.496093 
MSFT 0.424550 0.443334 0.496093 1.000000 
In [214]: returns.cov() 
Out[214]: 

AAPL GOOG IBM MSFT 
AAPL 0.001028 0.000303 0.000252 0.000309 
GOOG 0.000303 0.000580 0.000142 0.000205 
IBM 0.000252 0.000142 0.000367 0.000216 
MSFT 0.000309 0.000205 0.000216 0.000516 


利用 DataFrame 的 corrwith 方 法 ， 你 可 以 计算 
其 列 或 行 跟 另 一 个 Series 或 DataFrame 之 间 的 相关 
系数 。 传 入 一 个 Series 将 会 运 回 一 个 相 天 系数 值 
Series (针对 各 列 进行 计算 ) : 


In [215]: returns.corrwith(returns.IBM) 


Out[215] : 

AAPL 0.410648 
GOOG 0.390692 
IBM 1.000000 
MSFT 0.496093 


传 入 一 个 DataFrame 则 会 计算 按 列 名 配对 的 相 
、 °° 这里， 我 计算 百分比 变化 与 成 交 量 的 相 


In [216]: returns.corrwith(volume) 


Out[216]: 

AAPL -0.057461 
GOOG 0.062644 
IBM -0.007900 
MSFT -0.014175 


传 入 axis=1 即 可 近 行 进行 计算 。 无 论 如 何 ， 在 
计算 相 天 系数 之 机， 所 有 的 数据 项 者 会 掖 标签 对 


唯一 值 、 值 计数 以 及 成 员 质 格 


还 有 一 类 方法 可 以 从 一 维 Series 的 值 中 抽取 信 
已。 以 下 面 这 个 Series 为 例 : 


In 
1 


[217]: obj = Series(['c', 'a', Id 'a', 'a', 'b', 'b"', 
GY, 'c']) 


第 一 个 函数 是 unigue， 它 可 以 得 到 Series 中 的 
唯一 值 数组 . 


In [218]: uniques = obj.unique() 


In [219]: uniques 
Out[219]: array([c, a, d, bl], dtype=object) 


返回 的 唯一 值 是 未 排序 的 ， 如 果 需 要 的 话 ， 
可 以 对 结果 再 次 进行 排序 (uniques.sort()) 。 
value_counts 用 于 计算 一 个 Series 中 各 值 出 现 的 频 
率 : 


In [220]: obj.value_counts() 


Out [220]: 
c 3 
a 3 
b 2 
d 1 


为 了 便于 查看 ， 结 果 Series 是 按 值 频率 降序 排 
列 的 。value_counts 还 是 一 个 顶级 pandas 方 法 ， 可 
用 于 任何 数组 或 序列 : 


In [221]: pd.value counts(obj.values, sort=False) 


Out[221]: 
a 3 
b 2 
C 3 
d 1 


最 后 是 isin， 它 用 于 判断 矢量 化 集合 的 成 员 资 
格 ， 可 用 于 选取 Series 中 或 DataFrame 列 中 数据 的 


于 集 : 


In [222]: mask = obj.isin(['b', 'c']) 


In [223]: mask In [224]: obj[mask] 
Out [223]: Out[224]: 
0 True 0 C 


1 False 5 b 
2 False 6 b 
3 False 7 C 


False 8 C 
True 
True 
True 
True 


表 5-11 给 出 了 这 几 个 方法 的 一 些 参 考 信 息 。 


表 5-11: 唯一 值 、 值 计数 、 成 员 资格 方法 


OO 


有 去 说 明 
isin 计算 一 个 表示 “Series 各 值 是 否 包 含 于 传 入 的 值 序 列 中 ”的 布尔 型 数组 
unique 计算 Series 中 的 唯一 值 数组 ， 按 发 现 的 顺序 返 


value_counts ”返回 一 个 Series， 其 索引 为 唯一 值 ， ra 按 计 数值 降序 排列 


有 了 时， 你 可 能 希望 得 到 DataFrame 中 多 个 相关 
列 的 一 张 柱 状 图 。 0 


In [225]: data = DataFrame({' Qul': [1, 3, 4, 3, 4], 
本 'QUu2': [2, 3, 1, 2, 3], 
'Qu3': [1, 5, 2, 4, 4]}) 
In [226]: data 
Out[226]: 
Qu1L QU2 QUu3 
(©) 1 2 1 
1 3 3 5 
2 4 1 2 
3 3 2 4 
4 4 3 4 


将 pandas.value_counts 传 给 该 DataFrame 的 
apply 函 效 ， 歌 会 出 现 : 


In [227]: result = data.apply(pd.value counts).fillna(0) 


In [228]: result 


Out[228] : 


Qu1L QU2 
1 1 1 
2 0 2 
3 2 2 
4 2 0 
5 0 0 


PNOPP 


处 理 忠 失 数 据 


缺失 数据 (missing data) 在 大 部 分 数据 分 析 
应 用 中 都 很 常见 。pandas 的 设计 目标 之 一 就 是 让 缺 
失 数 据 的 处 理 任 务 尽 量 轻松 。 例 如 ，pandas 对 象 上 
的 所 有 描述 统计 都 排除 了 缺失 数据 ， 正 如 我 们 在 
本 章 稍 早 的 地 方 所 看 到 的 那样 。 


pandas 使 用 浮 点 值 NaN (Nota Number) 表示 
浮 点 和 非 浮 点 数组 中 的 缺失 数据 。 它 只 是 一 个 便 
于 被 检测 出 来 的 标记 而 已 : 


In [229]: string data = Series(['aardvark', 'artichoke', 
np.nan, 'avocado']) 


In [230]: string_data In [231]: string_data.isnull() 
Out[230]: Out[231] : 

0 aardvark 0 False 

1 artichoke lL False 

2 NaN 2 True 

3 avocado 3 False 


Python 内 萤 的 None 值 也 会 说 当做 NA 人 处理: 


In [232]: string_data[0] = None 


In [233]: string_data.isnull() 


Out[233]: 

© True 
1 False 
2 True 
3 False 


我 不 敢 说 pandas 的 NA 表现 形式 下 最 优 的 ， 但 
它 确 实 很 催 单 也 很 可 乔 。 由 于 NumPy 的 数据 类 型 
体系 中 缺乏 真正 的 NA 数据 类 型 或 位 模式 ， 所 以 写 
征 我 能 想到 的 最 佳 解决 方案 〈 一 父 简 单 的 API 以 及 
足够 全 面 的 性 能 特征 ) 。 随 着 NumPy 的 不 断 发 
展 ， 这 个 问题 今后 可 能 会 发 生变 化 。 


表 5-12: NA 处 理 方法 


为 法 说 明 

dropna 根据 各 标签 的 值 中 是 否 存 在 缺失 数据 对 轴 标 签 进 行 过 滤 ， 可 通过 阅 值 调节 
对 缺失 值 的 容忍 度 

fillna 用 指定 值 或 插值 方法 (如 ffill 或 bfill) 填充 缺失 数据 

isnull 返回 一 个 含有 布尔 值 的 对 象 ， 这 些 布尔 值 表 示 哪 些 值 是 缺失 值 /NA， 该 对 
象 的 类 型 与 源 类 型 一 样 

notnull isnull 的 否定 式 


滤 除 缺失 数据 


过 滤 挥 缺失 数据 的 办 法 有 很 多 种 。 纯 手工 操 
作 永 远 都 是 一 个 办 法 ， 但 dropna 可 能 会 更 实用 一 
些 。 对 于 一 个 Series，dropna 返 回 一 个 仅 售 非 空 数 
据 和 索引 值 的 Series: 


In [234]: from numpy import nan as NA 
In [235]: data = Series([1, NA, 3.5, NA, 7]) 
In [236]: data.dropnal() 


Out [236]: 
0 1.0 


当然 ， 也 可 以 通过 布尔 型 索引 达到 这 个 目 


In [237]: data[ldata.notnull()] 


Out[237]: 
0 1.0 
2 3.5 
4 7.0 


而 对 于 DataFrame 对 象 ， 事 情 束 有 点 复兴 。 
你 可 能 希望 去 并 全 NA 或 台 有 NA 的 行 或 列 。dropna 
默认 丢弃 任何 舍 有 人 铅 失 值 的 行 : 
i [NA, NA, NA], [NA, 6.5, 3.]]) 


In [239]: cleaned = data.dropna( ) 


In [240]: data In [241]: cleaned 
Out[240]: Out[241]: 
0 1 2 0 1 2 
0 1 6.5 3 © 1 6.5 3 
1 1 NaN NaN 
2 NaN NaN NaN 
3 NaN 6.5 3 


传 入 how='all 将 只 丢弃 全 为 NA 的 那些 行 : 


In [242]: data.dropna(how="'all') 
Out[242]: 
0 1 2 


要 用 这 种 方式 丢弃 列 ， 只 需 传 入 axis=1 即 可 : 


In [243]: data[4] = NA 


In [244]: data 
how='all') 
Out[244]: 

0 1 2 4 
1 6.5 3 NaN 
1 NaN NaN NaN 
NaN NaN NaN 
6.5 3 NaN 


In [245]: data.dropna(axis=1, 


out[245] : 

0 和 
0 1 6.5 3 
1 1 NaN NaN 
2 NaN NaN NaN 
3 NaN 6.5 3 


丸 一 个 滤 除 DataFrame 行 的 问题 涉及 时 间 序 列 


数据 。 假 设 你 只 想 贸 


thresh 参 数 实现 此 目的 : 


In [246]: df = DataFrame(np.random.randn(7, 3)) 
In [247]: df.ix[:4, 1] = NA; df.ix[:2, 2] = NA 


In [248]: df 
df .dropna(thresh=3) 
Out [248]: 

0 
2 
0 -0.577087 
-0.199543 
1 0.523772 
-1.307030 
2 -0.713544 
3 -1.860761 
4 -1.265934 


NaN 
NaN 
NaN 


5 0.332883 -2.359419 
6 -1.541996 -0.970736 


填充 缺失 数据 


NaN 


NaN 
0.560145 
-1.063512 
-0.199543 
-1.307030 


In [249]: 


Out [249]: 
0 


5 0.332883 


6-1.541996 


下 一 部 分 观测 数据 ， 可 以 用 


1 


-2.359419 


-0.970736 


你 可 能 不 想 滤 除 缺失 数据 (有 可 能 会 丢弃 跟 
它 有 关 的 其 他 数据 ) ， 而 是 希望 通过 其 他 方式 填 
什 那 些 “ 空 洞 *。 对 于 大 多 数 情况 而 言 ，fillna 方 法 
古 最 主要 的 范 数 。 通 过 一 个 弟 数 调用 他 Ina 束 会 将 
缺失 值 莓 换 为 那个 单数 值 : 


In [250]: gf.fiIIna(0]】 


Out[250]: 

0 2 
9 -0.577087 0.000000 0.000000 
1 0.523772 0.000000 0.000000 
2 -0.713544 0.000000 0.000000 
3 -1.860761 0.000000 0.560145 
4 -1.265934 0.000000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 


右 是 通过 一 个 字典 调用 和 他 Ina， 束 可 以 实现 对 
不 同 的 列 填充 不 同 的 值 : 


In [251]: df.fillina({1i: 0.5, 3: -1}) 


Out[251]: 

0 1 和 
0 -0.577087 0.500000 NaN 
1 0.523772 0.500000 NaN 
2 -0.713544 0.500000 NaN 
3 -1.860761 0.500000 0.560145 
4 -1.265934 0.500000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 


fillna 默 认 会 返回 新 对 象 ， 但 也 可 以 对 现 有 对 
象 进 行 就 地 修改 : 


# 已 定 芝 回 斧 填 宛 六 
In [252]: _ = df.fillna(0, inplace=True) 


In [253]: df 


Out[253] : 

0 1 2 
0 -0.577087 0 .000000 0 .000000 
1 0.523772 0 .000000 0 .000000 
2 -0.713544 0 .000000 0.000000 
3 -1.860761 0.000000 0.560145 
4 -1.265934 0.000000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 


对 reindex 有 效 的 那些 插值 方法 也 可 用 于 


fillna: 


In [254]: df = DataFrame(np.random.randn(6, 3)) 
In [255]: df.ix[2:, 1] = NA; df.ix[4:, 2] = NA 


In [256]: df 


out[256] : 

0 i 2 
0 0.286350 0.377984 -0.753887 
0.331286 1.349742 0.069877 
2 0.246674 NaN 1.004812 
3 1.327195 NaN -1.549106 
4 0.022185 NaN NaN 
5 0.862580 NaN NaN 


In [257]: df.fillna(method='ffill') In [258]: 
df.fillna(method='ffill', limit=2) 


Out[257]: Out[258]: 

0 1 2 0 
1 2 
0 0.286350 0.377984 -0.753887 0 0.286350 
0.377984 -0.753887 
1 0.331286 1.349742 0.069877 1 0.331286 
1.349742 0.069877 
2 0.246674 1.349742 1.004812 2 0.246674 
1.349742 1.004812 
3 1.327195 1.349742 -1.549106 3 1.327195 
1.349742 -1.549106 
4 0.022185 1.349742 -1.549106 4 0.022185 


NaN -1.549106 
5 0.862580 1.349742 -1.549106 5 0.862580 
NaN -1.549106 


只 要 和 棚 微 动 动脑 子 ， 你 束 可 以 利用 fiIna 实 现 
许多 别 的 功能 。 比 如 说 ， 你 可 以 传 入 Series 的 平均 
值 或 中 位 数 : 


In [259]: data = Series([1., NA, 3.5, NA, 7]) 


In [260]: data.fillna(data.mean()) 


out[260] : 

0 1.000000 
1 3.833333 
区 3.500000 
3 3.833333 
4 7.000000 


表 5-13 列 出 了 flna 的 参数 参考 。 


表 5-13: fillna 函 数 的 参数 


参数 说 明 
value 用 于 填充 缺失 值 的 标量 值 或 字典 对 象 


method 插值 方式 。 如 果 函 数 调用 时 未 指定 其 他 参数 的 话 ， 默 认为 “ffil 


表 5-13: fillna 函 数 的 参数 ( 续 ) 


参数 说 明 
axis 待 填充 的 轴 ， 默 认 axis=0 


inplace 修改 调用 者 对 象 而 不 产生 副本 
limit (对 于 前 向 和 后 向 填充 ) 可 以 连续 填充 的 最 大 数量 


层次 化 么 引 


层次 化 索引 (hierarchical indexing) 是 pandas 

的 一 项 重要 功能 ， 它 使 你 能 在 一 个 轴 上 拥有 多 个 

(两 个 以 上 ) 索引 级 别 。 抽 象 点 说 ， 它 使 你 能 以 

低 维度 形式 处 理 高 维度 效 据 。 我 们 移 来 看 一 个 科 

单 的 例子 : 创建 一 个 Series， 并 用 一 个 由 列表 或 数 
组 组 成 的 列表 作为 索引 。 


In [261]: data = Series(np.random.randn(10), 
a index=[['a', 'a', 'a', 'b', 'b'", 
'b', 'c', ‘Cy “dd 'd'], 
eg [1, 2, 3, 1, 2, 3, 1, 2, 2, 
3]]) 


In [262]: data 
Out[262]: 

a 1 0.670216 
0.852965 
-0.955869 
-0.023493 
-2.304234 
-0.652469 
-1.218302 
-1.332610 
1.074623 
0.723642 


这 了 束 是 市 有 MultiIndex 索 引 的 Series 的 格式 化 
。 ° 索引 之 间 的 “ 回 隔 ”表示 “直接 使 用 上 面 
J : 


b 


C 


d 


六 Ph 上 


In [263]: data.index 
Out[263]: 

MultiIndex 

[('a', 1) ('a', 2) (al 
ee 


对 于 一 个 层次 化 索引 的 对 象 ， 选 取 数 据 子 集 
的 操作 很 商 单 : 


In [264]: data['b'] 
Out[264]: 

1 -0.023493 

2 -2.304234 

3 -0.652469 


， 3) (by 1) (by 2) ('b', 3) ('c,, 
d ,3)] 


In [265]: data['b':'c'] In [266]: data.ix[['b', 
Out[265]: Out[266]: 
b 1 -0.023493 b 1 -0 .023493 
2 -2.304234 2 -2.304234 
3 -0.652469 3 -0.652469 
C- 并 -1.218302 d 2 1.074623 
2 -1.332610 3 0 .723642 


有 时 甚至 还 可 以 在 “内 层 ” 中 进行 选取 ; 


In [267]: data[:, 2] 


Out[267] : 

a 0.852965 
b -2.304234 
C -1.332610 
d 1.074623 


层次 化 索引 在 数据 重 塑 和 基于 分 组 的 操作 
(如 透视 表 生 成 ) 中 扮演 着 重要 的 角色 。 比 如 
说 ， 这 段 数据 可 以 通过 其 unstack 方 法 被 重新 安排 
到 一 个 DataFrame 中 : 


In [268]: data.unstack() 


Out[268 ] : 

1 2 3 
a 0.670216 0.852965 -0.955869 
b -0.023493 -2.304234 -0.652469 
Cc -1.218302 -1.332610 NaN 
d NaN 1.074623 0.723642 


unstack 上 的 刻 运 算是 stack: 


In [269]: data.unstack().stack() 


Out[269]: 

a 1 0.670216 
2 0.852965 
3 -0.955869 

b 1 -0.023493 
2 -2.304234 
3 -0.652469 

C 工 -1.218302 
2 -1.332610 

d 2 1.074623 
3 0.723642 


stack 和 unstack 将 在 第 7 章 中 详细 讲解 。 


对 于 一 个 DataFrame， 每 条 轴 都 可 以 有 分 层 索 
引 : 


In [270]: frame = DataFrame(np.arange(12).reshape((4, 3)), 
i index=[['a', 'a', 'b', 'b'], [i1, 
2, 1, 2]], 
Me columns=[['O0hio', 'Ohio"', 
'Colorado' |], 
ee ['Green', 'Red', 
"Green ' ] ] ) 


In [271]: frame 
Out[271]: 
Ohio Colorado 


Green Red Green 


a 工 0 1 2 
2 3 4 5 
b 工 6 7 8 
2 9 10 11 


各 层 都 可 以 有 名 字 (可 以 是 字符 串 ， 也 可 以 
是 别 的 Python 对 象 ) 。 如 采 指 定 了 名 称 ， 它 们 束 
会 显示 在 控制 侣 输出 中 〈 不 要 将 索引 名 称 跟 轴 标 


Al 上 > 、 大 
签 混为一谈 ! ) 
In [272]: frame.index.names = ['key1', "key2 '] 
In [273]: frame.columns.names = ['state', 'color'] 


In [274]: frame 
Out[274] : 


State Ohio Colorado 

color Green Red Green 

key1 key2 

a 1 0 1 2 
2 3 4 5 

b 1 6 7 8 
2 9 10 11 


由 于 有 了 分 部 的 列 么 引 ， 因 此 可 以 轻松 选取 
列 分 组 : 


In [275]: frame['Ohio'] 


Out[275]: 

color Green Red 

key1 key2 

a 1 0 1 
2 3 4 

b 1 6 7 
2 9 10 


可 以 单独 创建 MultiIndex 然 后 复 用 。 。 上面 那个 
DataFrame 中 的 (分 级 的 ) 列 可 以 这 样 创建 : 


MultiIndex.from arrays([['Oohio', 'Ohio', 'Colorado'], 
['Green', 'Red', 'Green']l], 
names=['state', 'color']) 


重 排 分 级 顺序 


有 时 ， 你 需要 重 狐 调整 某 条 轴 上 各 级 别 的 顺 
序 ， 或 根据 指定 级 别 上 的 值 对 数据 进行 排序 。 
swaplevel 接 受 两 个 级 别 编 号 或 名 称 ， 并 返回 一 个 
互 换 了 级 别 的 新 对 象 〈 但 数据 不 会 发 生变 化 ) : 


In [276]: frame.swaplevel('key1', 'key2') 


Out[276]: 

state Ohio Colorado 
color Green Red Green 
key2 key1 

1 a (©) 1 2 
2 a 3 4 5 
1 b 6 7 8 
2 b 9 10 11 


而 sortlevel 则 根据 单个 级 别 中 的 值 对 数据 进行 
排序 (稳定 的 ) 。 交 换 级 别 时 ， 稼 销 也 会 用 到 
sortlevel， 这 样 最 终结 果 束 是 有 序 的 了 : 


In [277]: frame.sortlevel(1) In [278]: 
frame.swaplevel(0, 1).sortlevel(0) 

Out[277]: Out[278]: 

state Ohio Colorado state Ohio 
Colorado 


color Green Red Green color Green Red 


Green 


key1 key2 key2 key1 

a 1 0 1 2 1 a 0 1 
2 

b 1 6 7 8 b 6 7 
8 

a 2 3 4 5 2 a 3 4 
5 

b 2 9 10 11 b 9 10 
11 


注意 : 在 层次 化 索引 的 对 象 上 ， 如 果 索 引 是 
按 字典 方式 从 外 到 内 排序 ( 即 调用 sortlevel(0) 或 
sort_index() 的 结果 ) ， 数 据 选 取 操 作 的 性 能 要 好 


很 多 。 
根据 级 别 沪 总 统计 


许多 对 DataFrame 和 Series 的 摘 述 和 汇总 统计 
都 有 一 个 level 远 项 ， 它 用 于 指定 在 某 条 轴 上 求 和 
的 级 别 。 再 以 上 面 那 个 DataFrame 为 例 ， 我 们 可 以 
根据 行 或 列 上 的 级 别 来 进行 求 和 ， 如 下 所 示 : 


In [279]: frame.sum(level='key2') 


Out[279]: 

state Ohio Colorado 
color Green Red Green 
key2 

1 6 8 10 
2 12 14 16 


In [280]: frame.sum(level='color', axis=1) 
Out[280]: 

color Green Red 

key1 key2 


a 1 2 1 
2 8 4 
b 1 14 7 
2 20 10 


这 其 实 征 利 用 了 pandas 的 groupby 功 能 ， 本 书 
稍 后 将 对 其 进行 评 细 讲解 。 


使 用 DataFrame 的 ] 列 


人 们 经 和 常 想 要 将 DataFrame 的 一 个 或 多 个 列 当 
做 行 索引 来 用 ， 或 者 可 能 硕 望 将 行 索 引 变 成 
DataFrame 的 列 。 以 下 面 这 个 DataFrame 为 例 : 


In [281]: frame = DataFrame({'a': range(7), 'b': range(7, 0, 

-1), 

a 'c': ['one', 'one', 'one', 

'two', 'two', 'two', 'two'l], 
: 'd': [9, 1, 2, 0, 1, 2, 3]}) 


In [282]: frame 


Out[282]: 

a b c d 
© 0 7 one 0 
1 1 6 one 1 
2 2 5 one 2 
3 3 4 two 0 
4 4 3 two 1 
5 5 2 two 2 
6 6 1 two 3 


DataFrame 的 set_index 国 数 会 将 其 一 个 或 多 个 
列 转换 为 行 索 引 ， 并 创建 一 个 新 的 DataFrame: 


In [283]: frame2 = frame.set_ index(['c', 'd']) 


In [284]: frame2 
Out[2841]: 
a b 


ONOPODNDPOC 
ORONOPO 
POOOPSOON 


默认 情况 下 ， 那 些 列 会 从 DataFrame 中 移 除 ， 
但 也 可 以 将 其 保留 下 来 : 


In [285]: frame.set_ index(['c', 'd'], drop=False) 
Out[285] : 
a b c d 


one 
one 
one 
two 
two 
two 
two 


reset_index 有 的 功 能 跟 set_index 刚 好 相反 ， 层 次 
化 索引 的 级 别 会 被 转移 到 列 里 面 : 


In [286]: frame2.reset_index() 


OPODNDPOC 
DO 上 WP 局 
POO 
ODDPONLDPO 


Out[286]: 

c d a b 
© one 0 0 7 
1 one 1 1 6 
2 one 2 2 5 
3 two © 3 4 
4 two 1 4 3 


5 two 2 5 2 
6 two 3 6 1 


其 他 有 关 pandas 的 话题 


这 里 是 另外 一 些 可 能 在 你 的 数据 旅程 中 用 得 
着 的 有 关 pandas 的 话题 。 


整数 索引 


操作 由 整数 索引 的 pandas 对 象 常常 会 让 新 手 
抓 儿 ， 因 为 它们 跟 内 置 的 Python 数据 结构 (如 列 
表 和 元 组 ) 在 索引 语义 上 有 些 不 同 。 例 如 ， 你 可 
能 认为 下 面 这 段 代 码 不 会 产生 一 个 销 旋 : 

ser = Series(np.arange(3.)) 
ser[-1] 


在 这 种 情况 下 ， 虽 然 pandas 会 “求助 于 ”整数 
索引 ， 但 没有 哪 种 方法 (至 少 我 束 不 知道 ) 能 够 
既 不 引入 任何 bug 又 安全 有 效 地 解决 该 问题 。 这 
里 ， 我 们 有 一 个 含有 0、1、2 的 索引 ， 但 是 很 难 推 
断 出 用 户 想 要 什么 (基于 标签 或 位 置 的 索引 ) : 

In [288]: ser 
Out[288]: 


1 1 
2 2 


相反 ， 对 于 一 个 非 整 效 索 3| ， 吏 没有 这 样 的 
歧义 : 

In [289]: ser2 = Series(np.arange(3.), index=['a', 'b", 

'c']) 


In [290]: ser2[-1] 
Out[290]: 2.0 


为 了 傈 持 民 好 的 一 致 性 ， 如 人 你 的 轴 索 引 合 
有 寺 引 郁 ， 那 么 根据 整 效 进行 数据 选取 的 操作 将 
总 是 面向 标签 的 。 这 也 包括 用 这 进行 切片 ; 


In [291]: ser.ix[:1] 


Out[291]: 
0 0 
:省 


如 果 你 需要 可 靠 的 、 不 考虑 索引 类 型 的 、 基 
于 位 置 的 索引 ， 可 以 使 用 Series 的 iget_value 方 法 
和 DataFrame 有 的 irow 和 icol 方 法 : 


In [292]: ser3 = Series(range(3), index=[-5, 1, 3]) 


In [293]: ser3.iget_ value(2) 
Out[293]: 2 


In [294]: frame = DataFrame(np.arange(6).reshape(3, 2), 
index=[2, ©, 11]) 
In [295]: frame.irow(0) 


Out[295]: 
0 0 
1 1 


Name: 2 


面板 数据 


pandas 有 一 个 Panel 数 据 结构 (不 是 本 书 的 主 
要 内 容 ) ， 你 可 以 将 其 看 做 一 个 三 维 版 的 
DataFrame。pandas 的 大 部 分 开发 工作 都 集中 在 表 
格 型 数据 的 操作 上 ， 因 为 这 些 数据 更 常见 ， 而 且 
nn 
NZ 2 O 


你 可 以 用 一 个 由 DataFrame 对 和 象 组 成 的 字典 或 
一 个 三 维 ndarray 来 创建 Panel 对 和 象 : 


Import pandas.io.data as web 


pdata = pd.Panel(dict((stk, web.get data yahoo(stk, 
'1/1/2009', '6/1/2012' )) 

for stk in ['AAPL', 'GO0G', 'MSFT', 
'DELL'])) 


Panel 中 的 每 一 项 (类 似 于 DataFrame 的 列 ) 
都 是 一 个 DataFrame: 


In [297]: pdata 

Out[297] : 

<class 'pandas.core.panel.Panel'> 

Dimensions: 4 (items) x 861 (major) x 6 (minor) 

Items: AAPL to MSFT 

Major axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00 
Minor axis: Open to Adj Close 


In [298]: pdata = pdata.swapaxes('items', 'minor') 
In [299]: pdata[ 'Adj Close '] 
Out[299] : 


<class 'pandas.core.frame.DataFrame'> 


DatetimeIndex: 861 entries, 


01 00:00:00 


Data colum 
AAPL 86 
DELL 86 


GOOG 86 
MSFT 86 
dtypes: fl1 


Ns: 


1 non-null 
1 non-null 


1 non-nul 
1 non-nul 
oat64(4) 


1 
1 


values 
values 
values 
values 


2009-01-02 00:00:00 to 2012-06- 


基于 这 的 标 谷 索引 被 推广 到 了 三 个 维度 ， 
此 我 们 可 以 选取 指定 日 期 或 日 期 范围 的 所 有 数 
据 ， 如 下 所 示 : 


In [300]: pdata.ix[:, 


Out[300]: 


AAPL 569. 
DELL 12. 
GOO0G 571. 
MSFT 28 ， 


In [301]: 
Out[3011] : 


Date 

2012-05-22 
2012-05-23 
2012-05-24 
2012-05-25 
2012-05-29 
2012-05-30 
2012-05-31 
2012-06-01 


en High 
16 572.65 
15 12.30 
79 572.65 
76 28.96 


'6/1/201 


Low 
560 ,52 
12 .05 
568 ,35 
28 ,44 


2 “于 
Close Volume 
560.99 18606700 


12.07 19396700 
570.98 3057900 
28.45 56634300 


pdata.ix['Adj Close', '5/22/2012':, 


AAPL 


556.97 
570.56 
565 ,32 
562 ,29 
572.27 
579.17 
577.73 
560.99 


D 


ELL G 


.08 600. 
.49 609. 
.45 603. 
.46 591. 
.66 594. 
.56 588. 
.33 580. 
,07 570. 


00G MSFT 


Adj Close 
560 ,99 
12.07 
570.98 
28.45 


:] 


丸 一 个 用 于 呈现 面板 数据 (尤其 是 对 拟 合 统 
计 模 型 ) 的 办 法 是 “堆积 式 的 "DataFrame 形 式 : 


In [302]: stacked = pdata.ix[:, '5/30/2012':, 


:].to_frame() 


In [303]: stacked 


Out[303]: 
Open High Low Close Volume 

Adj Close 
major minor 
2012-05-30 AAPL 569.20 579.99 566.56 579.17 18908200 
579.17 

DELL 12.59 12.70 12.46 12.56 19787800 
12.56 

GOOG 588.16 591.90 583.53 588.23 1906700 
588.23 

MSFT 29.35 29.48 29.12 29.34 41585500 
29.34 
2012-05-31 AAPL 580.74 581.50 571.46 577.73 17559800 
577.73 

DELL 12.53 12.54 12.33 12.33 19955500 
12.33 

GOOG 588.72 590.00 579.00 580.86 2968300 
580.86 

MSFT 29 .30 29 ,42 28 .94 29 .19 39134000 
29 .19 


2012-06-01 AAPL 569.16 572.65 560.52 560.99 18606700 
560.99 
DELL 12.15 12.30 12.05 12.07 19396700 


12.07 

GOOG 571.79 572.65 568.35 570.98 3057900 
570.98 

MSFT 28.76 28.96 28.44 28.45 56634300 
28 .45 


DataFrame 有 一 个 相应 的 to_panel 方 法 ， 它 是 
to_frame 的 刻 运 算 : 


In [304]: stacked.to_panel() 

Out[3041]: 

<class 'pandas.core.panel.Panel'> 

Dimensions: 6 (items) x 3 (major) x 4 (minor) 

Items: Open to Adj Close 

Major axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00 
Minor axis: AAPL to MSFT 


第 6 草 ”数据 加 载 、 人 存储 与 文件 格式 


如 各 不能 将 数据 导入 导出 Python， 本 书 所 介 
绍 的 这 些 工 具 就 没什么 大 用 。 我 打算 看 重 介绍 
pandas 的 输入 输出 对 象 ， 里 然 别 的 库 中 也 有 不 少 
以 此 为 目的 的 工具 。 例 如 ，NumpPy 提 供 了 一 个 低 
级 但 异常 高 效 的 二 进 制 数 据 加 载 和 存储 机 制 ， 包 
括 对 内 存 映 山 数 组 的 支持 等 。 评 细 内 容 请 参阅 第 


12 意 。 

输入 输出 通常 可 以 划分 为 几 个 大 类 : 读 取 文 
本 文件 和 其 他 更 高 效 的 磁盘 存储 格式 ， 加 载 数 据 
库 中 的 数据 ， 利 用 Web API 操 作 网 络 资源 。 


谱写 文本 格式 的 数据 


因为 其 简单 的 文件 交互 语法 、 直 观 的 数据 绑 
构 ， 以 及 诸如 元 组 打包 解 包 之 类 的 便利 功能 ， 
Python 在 文本 和 文件 处 理 方 面 已 经 成 为 一 门 招 人 


剖 欢 的 语言 


pandas 提 供 了 一 些 用 于 将 表格 型 数据 读 取 为 
DataFrame 对 和 象 的 范 数 。 表 6-1 对 它们 进行 了 忌 结 ， 
其 中 read_csv 和 和 read_table 可 能 会 是 你 今后 用 得 最 多 


的 。 


表 6-1: pandas 中 的 解析 函数 


函数 说 明 

read_csv 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 有 逗号 

read_table 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 制 
表 符 (“\t”) 

read_fwf 读 取 定 宽 列 格式 数据 (也 就 是 说 ， 没 有 分 隔 符 ) 

read_clipboard 读 取 剪贴 板 中 的 数据 ， 可 以 看 做 read_table 的 剪贴 板 版 。 在 将 网 页 转换 
为 表格 时 很 有 用 


我 将 大 致 介绍 一 下 这 些 函 数 在 将 文本 数据 转 
换 为 DataFrame 时 所 用 到 的 一 些 技术 。 这 些 函 数 的 
让 项 可 以 划分 为 以 下 几 个 大 类 : 


索引: 将 一 个 或 多 个 列 当 做 返回 的 DataFrame 
处 理 ， 以 及 是 否 从 文件 、 用 户 获 取 列 名 。 


-类 型 推断 和 数据 转换 : 包括 用 户 定义 值 的 转 
换 、 缺 失 值 标记 列表 等 。 


"日 期 解析 ， 包 括 组 合 功 能 ， 比 如 将 分 若 在 多 
个 列 中 的 日 期 时 间 信 息 组 合成 结果 中 的 单个 列 。 


达 代 : 文 持 对 大 文件 进行 未 块 大 代 。 


不 规整 数据 问题 ， 跳 过 一 些 行 、 页 脚 、 注 释 
或 其 他 一 些 不 重要 的 东西 (比如 由 成 千 上 万 个 
号 隔 开 的 数值 数据 ) 。 


类 型 推 新 (type inference) 是 这 些 函 数 中 最 重 
要 的 功能 之 一 ， 也 就 是 说 ， 你 不 需要 指定 列 的 类 
型 到 底 是 数值 、 整 数 、 布 尔 值 ， 还 是 字符 串 。 日 
期 和 其 他 自 定 义 类 型 的 处 理 需 要 多 花 点 工夫 才 
We 


46]: !cat chg96/ex1.csv 1 


由 于 该 文件 以 逗 喜 分 隔 ， 所 以 我 们 可 以 使 用 


read_csv 将 其 谈 入 一 个 DataFrame: 


In [847]: df = pd.read csv('ch0O6/ex1.csv') 


In [848]: df 


Out[848]: 

a b Cc d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


我 们 也 可 以 用 read_table， 只 不 过 需要 指定 分 
隅 符 而 已 : 


In [849]: pd.read_table( cho06/ex1.csv ，sSsep= ，) 


Out[849] : 

a b C d message 
0 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


注意 : 这 里 我 用 的 是 cat 这 个 UNIX shell 命 令 将 
文本 的 原始 内 容 打 印 到 屏 句 上。 如 果 你 用 的 是 
Windows， 则 可 以 使 用 type 来 达到 同样 的 目的 。 


人 \ 征 所 有 文件 都 有 标题 行 。 看 看 下 面 这 


In [850]: !cat cho6/ex2.csv 
1,2,3,4,hello 
5,6,7,8,world 
9,10, 11, 12, foo 


读 入 该 文件 的 办 法 有 两 个 。 你 可 以 让 pandas 为 
其 分 配 默 认 的 列 名 ， 也 可 以 目 己 定义 列 名 : 


In [851]: pd.read_csv( "ch06/ex2.cSv ' ，header=None ) 
Out[851]: 
X.1 X.2 X.3 X.4 X.5 


0 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


In [852]: pd.read_ csv('cho6/ex2.csv', names=['a', 'b', 'c', 
'd', 'message']) 


Out[852]: 

a b C d message 
9 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


假设 你 布 望 将 message 列 做 成 DataFrame 的 索 
引 。 你 可 以 明确 表示 要 将 该 列 放 到 索 314 的 位 置 
上 上， 也 可 以 通过 index_col 参 数 指定 "message": 


In [853]: names = ['a', 'b', 'c', 'd', 'message'] 


In [854]: pd.read csv('ch06/ex2.csv', names=names, 
index_col='message') 
Out[854]: 
a b c dd 
message 
hello 1 2 3 4 
world 5 6 7 8 
foo 9 10 11 12 


如 琳 布 户 将 多 个 列 做 成 一 个 层次 化 索引 ， 只 
需 传 入 由 列 编号 或 列 名 组 成 的 列表 即 可 : 


In [855]: !cat cho6/csv_mindex.csv 
key1, key2,VvValue1, value2 

one,a,1,2 

one,b,3,4 

one,c,5,6 

one,d,7,8 

two,a, 9,10 

two, b, 11, 12 

two,c, 13,14 

two, d, 15,16 


In [856]: parsed = pd.read csv('chO6/csv mindex.csv', 
index_col=['key1', 


In [857]: parsed 
Out[857]: 


valuel1 

key1 key2 
one a 1 
b 3 
C 5 
d 7 
two a 9 
b 11 
C 13 
d 15 


有 齿 表 格 可 能 不 是 用 固定 的 分 隅 符 去 分 隔 字 
段 的 比如 空 白 符 或 其 他 模式 2?) 。 对 于 这 种 
情况 ， 可 以 编写 一 个 正则 表达 式 米 作为 read_table 


value2 


'key2']) 


的 分 隔 符 。 看 看 下 面 这 个 文本 文件 : 


In [858]: list(open('ch06/ex3.txt')) 


out [858] : 
[ A 
'aaa -0.264438 
"bbb 0.927272 
'ccc -0.264273 


'ddd -0.871858 


该 文件 各 个 字段 由 数量 不 定 的 空白 符 分 隔 ， 
虽然 你 可 以 对 其 做 一 些 手工 调整 ， 但 这 个 情况 还 
是 处 理 比较 好 。 本 例 的 这 个 情况 可 以 用 正则 表达 


B 


-1.026059 


0.302904 


-0,.386314 
-0.348382 


C\n', 


-0.619500\n', 
-0.032399\n', 
-0.217601\n', 


1.100491\n'] 


式 \s+ 表 示 ， 于 是 我 们 束 有 了 : 


In [859]: result = pd.read_table( ' ch06/ex3 ,txt ' ， 


In [860]: result 


out[860] : 

B C 
aaa -90.264438 -1.026059 -0.619500 
bbb 0.927272 0,.302904 -0.032399 
ccc -0.264273 -0.386314 -0.217601 
ddd -0.871858 -0.348382 1.100491 


这 里 ， 由 于 列 名 比 数据 行 的 数量 少 寺 33， 所 
以 read_table 推 新 第 一 列 应 该 是 DataFrameb 的 索引 。 


这 些 解 术 韭 图 数 还 有 许多 参数 可 以 希 助 你 处 
理 各 种 各 样 的 异形 文件 格式 (参见 表 6-2) 。 比 如 
说 ， 你 可 以 用 skiprows 跳 过 文件 的 第 一 行 、 第 三 行 
和 第 四 行 : 


In [861]: !cat cho6/ex4.csv 

# hey! 

a,b,c,d,message 

# just wanted to make things more difficult for you 

# who reads CSV files with computers, anyway? 
1,2,3,4,hello 

5,6,7,8,world 

9,10, 11, 12, foo 

In [862]: pd.read csv('cho6/ex4.csv', skiprows=[0, 2, 3]) 


Out[862]: 

a b Cc d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


缺失 信 处 理 是 文件 解析 任务 中 的 一 个 重要 组 
成 部 分 。 缺 失 数 据 经 销 是 要 么 没有 ( 空 字 符 
捉 ) ， 要 么 用 某 个 标记 值 表 示 。 默 认 情 况 下 ， 
pandas 会 用 一 组 经 常 出 现 的 标记 值 进 行 识别 ， 如 
NA、-1.#TND 以 及 NULL 等 : 


符 


In [863]: 


ICat chQO6/ex5.csv 


something,a,b,c,d,message 
one, 1,2,3,4,NA 
two,5,6,,8,world 

three, 9,10,11,12,Tfoo 


In [864]: result = pd.read csv('ch0O6/ex5.csv') 
In [865]: result 
Out[865]: 

something a b C d message 
0 one 1 2 3 4 NaN 
1 two 5 6 NaN 8 world 
2 three 9 10 11 12 foo 
In [866]: pd.isnull(result) 
Out[866]: 

something a b C d message 
0 False False False False False True 
1 False False False True False False 
2 False False False False False False 


na_values9] 以 接受 一 组 用 于 表示 缺失 值 的 字 


串 : 


In [867]: result = pd.read_cSsv( 'ch06/ex5,cSVv ' ， 
['NULL']) 
In [868]: result 
Out[868]: 
something a b C d message 
0 one 1 2 3 4 NaN 
1 two 5 6 NaN 8 world 
2 three 9 10 11 12 foo 


[ two ]} 


In [870]: pd.read csv('cho6/ex5.csv', 


{'message': ['foo', 'NA'], 


na_values= 


和 可 以 用 一 个 字典 为 各 列 指定 不 同 的 NA 标记 


In [869]: sentinels = 


'something"': 


na_values=sentinels) 


out[870] : 


sep 或 delimiter 


header 


index_col 


names 


skiprows 


na_values 


comment 


parse_dates 


keep_date_col 


converters 


dayfirst 


date_parser 
nrows 
iterator 
chunksize 


skip_footer 


something a b C d message 
0 one 1 2 3 4 NaN 
1 NaN 5 6 NaN 8 world 
2 three 9 10 11 12 NaN 
表 6-2: read_csv/read table 国 数 的 参数 
参数 说 明 
path 表示 文件 系统 位 置 、URL、 文 件 型 对 象 的 字符 串 


用 于 对 行 中 各 字段 进行 拆 分 的 字符 序列 或 正则 表达 式 


用 作 列 名 的 行 号 。 默 认为 0 (第 一 行 ) ， 如 果 没 有 header 行 就 应 该 设置 
为 None 


用 作 行 索引 的 列 编号 或 列 名 。 可 以 是 单个 名 称 /数字 或 由 多 个 名 称 / 数 字 
人 次 化 索引 ) 


于 结果 的 列 名 列表 ， 结 合 header=None 

i 二 数 (从 文件 开始 处 算 起 ) ， 或 需要 跳 过 的 行 号 列表 (从 0 
开始 ) 
一 组 用 于 替换 NA 的 值 
用 于 将 注释 信息 从 行 尾 拆 分 出 去 的 字符 (一 个 或 多 个 ) 
尝试 将 数据 解析 为 日 期 默认 为 False。 如 果 为 True， 则 尝试 解析 所 
有 列 。 此 外 ， 还 可 以 指定 需要 解析 的 一 组 列 号 或 加 如 果 列 表 的 元 
素 为 列表 或 元 组 ， 就 会 将 多 个 列 组 合 到 一 起 再 进行 日 期 解析 工作 ( 例 
如 ， 日 期 /时 间 分 别 位 于 两 个 列 中 ) 


如 果 连 接 多 列 解析 日 期 ， 则 保持 参与 连接 的 列 。 默 认为 False。 


由 列 号 / 列 名 跟 函 数 之 间 的 映射 关系 组 成 的 字典 。 例 如 ，ffoo': f} 会 对 
foo 列 的 所 有 值 应 用 函数 f 


当 解 析 有 歧义 的 日 期 时 ， 将 其 看 做 国际 格式 〈 例 如，7/6/2012 一 June 
7, 2012) 。 默 认为 False 


用 于 解析 日 期 的 函数 

需要 读 取 的 行 数 (从 文件 开始 处 算 起 ) 
返回 一 个 TextParser 以 便 逐 块 读 取 文件 
文件 块 的 大 小 〈 用 于 和 迭代 ) 

需要 忽略 的 行 数 (从 文件 末尾 处 算 起 ) 


表 6-2: read_csv/read_table 函 数 的 参数 ( 续 ) 


参数 说 明 

verbose 打印 各 种 解析 器 输出 信息 ， 比 如 “ 非 数值 列 中 缺失 值 的 数量 ”等 

encoding 用 于 unicode 的 文本 编码 格式 。 例 如 ，“utf-8” 表 示 用 UTF-8 编 码 的 
文本 

squeeze 如 果 数 据 经 解析 后 仅 含 一 列 ， 则 返回 Series 

thousands 干 分 位 分 隔 符 ， 如 “，” 或 “.” 


途 块 读 取 文本 文件 


在 处 理 很 大 的 文件 时 ， 或 找 出 大 文件 中 的 参 
效 集 以 便于 后 续 处 理 时 ， 你 可 能 只 想 谈 取 文 件 的 
一 小 部 分 或 未 块 对 文件 进行 迭代 。 


In [871]: result = pd.read csv('ch06/ex6.csv') 


In [872]: result 

Out[872]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 10000 entries, 0 to 9999 
Data columns: 


one 10000 non-null values 
two 10000 non-null values 
three 10000 non-null values 
four 10000 non-null values 
key 10000 non-null values 


dtypes: float64(4), object(1) 


如 采 只 想 读 取 几 行 《避免 读 取 整 个 文件 ) ， 
通过 nrows 进 行 指 定 即 可 : 
In [873]: pd.read_csv('ch06/ex6.cSsv'，nrows=5 ) 


Out[873] : 
one two three four key 


© 0.467976 -0.038649 -0.295344 -1.824726 L 
1 -0.358893 1.404453 0.704965 -0.200638 B 
2 -0.501840 0.659254 -0.421691 -0.057688 G 
3 0.204886 1.074134 1.388361 -0.982404 R 
4 0.354628 -0.133116 0.283763 -0.837063 Q 


要 逐 块 读 取 文 件 ， 需 要 设置 chunksize ( 行 


In [874]: chunker = pd.read csv('cho6/ex6.csv', 
chunksize=1000) 


In [875]: chunker 
Out[875]: <pandas.io.parsers.TextParser at Ox8398150> 


read_csv 所 退回 的 这 个 TextParser 对 象 使 你 可 
以 根据 chunksize 对 文件 进行 未 块 迭代 。 比 如 说 ， 
我 们 可 以 送 代 处 理 ex6.csv， 将 值 计 数 肾 合 
到 "key" 列 中 ， 如 下 所 示 : 


chunker = pd.read csv('chO6/ex6.csv', chunksize=1000) 


tot = Series([]) 
for piece in chunker: 
tot = tot.add(piece['key'].value counts(), fill value=0) 


tot = tot.order(ascending=False) 
于 是 我 们 束 有 了 : 


In [877]: tot[:10] 
Out[877]: 
368 
364 
346 
343 
340 


OOmTxm 


M 338 
J 337 
F 335 
K 334 
H 330 


TextParser 还 有 一 个 get_chunk 方 法 ， 它 使 你 可 
以 读 取 任意 大 小 的 块 。 
将 数据 写 出 到 文本 格式 


数据 也 可 以 被 输出 为 分 隔 符 格式 的 文本 。 我 
们 再 来 看 看 之 前 读 过 的 一 个 CSV 文 件 : 


In [878]: data = pd.read csv('ch06/ex5.csv') 


In [879]: data 


Out[879] : 

something a b C d message 
0 one 1 2 3 4 NaN 
1 two 5 6 NaN 8 world 
2 three 9 10 11 12 foo 


利用 DataFrame 的 to_csv 方 法 ， 我 们 可 以 将 数 
据 写 到 一 个 以 逗号 分 隔 的 文件 中 : 


In [880]: data.to _ csv('ch06/out.csv') 


In [881]: !cat cho6/out.csv 
;Something,a,b,c,d,message 
0,one,1,2,3.0,4, 
1,two,5,6,,8,world 

2,three, 9,10,11.0,12,Tfoo 


当然 ， 还 可 以 使 用 其 他 分 陋 符 (由 于 这 里 直 
人 
区 


In [882]: data.to csv(sys.stdout, sep="'|') 
|Ssomethinglalblcldlmessage 
olone|1|2|3.0|4| 

1|twol5|I6||18|world 
2|three|9|10|11.0|12|foo 


缺失 值 在 输出 结 示 中 会 航 表 示 为 空 字 符 串 。 
你 可 能 布 户 将 其 表示 为 别 的 标记 值 : 


In [883]: data.to csv(sys.stdout, na_rep='NULL') 
;Something,a,b,c,d,message 

0,one,1,2,3.0,4,NULL 

1, two, 5,6, NULL, 8, world 

2,three, 9,10,11.0,12,foo 


如 琳 没 有 设置 其 他 远 项 ， 则 会 写 出 行 和 列 的 
标 丛 。 当 然 ， 它们 也 部 可 以 被 蔡 用 : 


In [884]: data.to csv(sys.stdout, index=False, header=False) 
one, 1,2,3.0,4, 
two,5,6,,8,world 
three, 9,10,11.0,12,foo 


此 外 ， 你 还 可 以 只 写 出 一 部 分 的 列 ， 并 以 你 
指定 的 顺序 排列 : 


In [885]: data.to_ csv(sys.stdout, index=False, cols=['a', 

1 1 'c']) 
a,b,c 
1,2,3.0 


作 索 引 ) 


9erles ， 


5,6, 
9,10,11.0 


Series 也 有 一 个 to_csv 方 法 : 


In [886]: 
In [887]: 
In [888]: 


In [889]: 

2000-01-01 
2000-01-02 
2000-01-03 
2000-01-04 
2000-01-05 
2000-01-06 
2000-01-07 


dates = pd.date_range('1/1/2000', periods=7) 


ts = Series(np.arange(7), index=dates) 


ts.to_csv('cho6/tseries.csv') 


ICat chO6/tseries.csyv 


00 : 


虽然 只 需 一 


AAA 


In [890]: 


parse_dates=True) 


Out[890]: 

2000-01-01 
2000-01-02 
2000-01-03 
2000-01-04 
2000-01-05 
2000-01-06 
2000-01-07 


s、 TD 


:00,0 
:00,1 
:00,2 
:00,3 
:00,4 
:00,5 
:00,6 


点 整理 工作 (无 header 行 ， 
天 能 用 read_csv 将 CSV 文 件 谈 取 为 
但 还 有 一 个 更 为 方便 的 from_csv 方 法 : 


Series.from csv('cho6/tseries.csv', 


OO PO 


一 列 


更 多 信息 请 在 IPython 中 查看 to_csv 和 from_csv 


的 文档 。 


手工 处 理 分 隅 符 格 式 


大 部 分 存储 在 磁 一 上 的 表格 型 数据 都 能 
pandas.read_table 进 行 加 载 。 然 而 ， 有 时 还 是 需要 
做 一 些 手 工 处 理 。 由 于 接收 到 舍 有 了 畴 形 行 的 文件 
而 使 read_table 出 毛病 的 情况 并 不 少见 。 为 了 说 明 
这 些 基本 工具 ， 看 看 下 和 面 这 个 倍 单 的 CSV 文 件 : 

In [891]: !cat cho6/ex7.csv 


i mon Tan 
nm wan on 047 
7 / A 


对 于 任何 音字 符 分 隔 符 文 件 ， 可 以 二 接合 用 
Python 内 置 的 csv 模 块 。 将 任意 已 打开 的 文件 或 文 
件 型 的 对 象 传 给 csv.reader: 

el 


reader = csv.reader(f) 


_ 对 这 个 reader 进 行 运作 箭 会 为 每 行 产生 一 个 元 
组 车 全 4 (并 移 除 了 所 有 的 引号 ) : 


In [893]: for line in reader : 
二 print line 

['a', 'b", "Cc" | 

[于 7 27 '3'] 

['1 


现在 ， 为 了 使 数据 格式 合乎 要 求 ， 你 需要 对 
其 似 一 些 整 理工 作 : 


In [894]: lines = list(csv.reader(open('ch0o6/ex7.csv'))) 
In [895]: header, values = lines[0], lines[1:] 


In [896]: data dict = {h: v for h, v in zip(header, 
zip(*values) )} 


In [897]: data dict 
Out[897]: {f'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')} 


CSV 文 件 的 形式 有 很 多 。 只 需 定义 csv.Dialect 
的 一 个 子 类 即 可 定义 出 新 略 式 〈 如 专门 的 分 隔 
人 符 、 字 符 串 引用 约定 、 行 结束 符 等 ) 
class my_dialect(csv.Dialect): 
lineterminator = "'\n' 


delimiter = 
quotechar = "'"' 


reader = csv.reader(f, diaect=my_dialect) 


各 个 CSV 语 文 的 参数 也 可 以 关键 字 的 形式 提 
供给 csvreader， 而 无 需 定 义 子 类 : 


reader = csv.reader(f, delimiter='|'") 


可 用 的 选项 (csv.Dialect 的 属性 ) 及 其 功能 如 
表 6-3 所 示 。 


表 6-3: CSV 语 支 选项 


参数 
delimiter 


lineterminator 


duotechar 


quoting 


skipinitialspace 


doublequote 


escapechar 


说 明 

用 于 分 隔 字段 的 单字 符 字符 串 。 默 认为 “， 

用 于 写 操 作 的 行 结束 符 ， 默 认为 “\r\n”。 读 操作 将 忽略 此 选项 ， 它 能 
认 出 跨 平 台 的 行 结束 符 

用 于 带 有 特殊 字符 (如 分 隔 符 ) 的 字段 的 引用 符号 。 默 认为 “"” 
引用 约定 。 可 选 值 包 括 csv.QUOTE_ALL (引用 所 有 字段 ) 、csv. 
QUOTE_MINIMAL (只 引用 带 有 诸如 分 隔 符 之 类 特殊 字符 的 字段 )、 
CsV.QUOTE_NONNUMERIC 以 及 csv.QUOTE_NON (不 引用 ) 。 完 整 信息 
请 参考 Python 的 文档 。 默 认为 QUOTE_MINIMAL 

忽略 分 隔 符 后 面 的 空白 符 。 默 认为 False 

如 何 处 理 字段 内 的 引用 符号 。 如 果 为 Tr ue， 则 双 写 。 完 整 信 息 及 行为 
请 参见 在 线 文档 

用 于 对 分 隔 符 进行 转 义 的 字符 串 (如 果 quoting 被 设置 为 csv.QUOTE_ 
NONE 的 话 ) 。 默 认 禁 用 


a 
注 后 


对 于 那些 使 用 复杂 分 隅 符 或 多 子 从 分 


隅 符 的 文件 ，csv 模 块 驶 无 能 为 力 了 。 这 种 情况 
下 ， 你 束 只 能 使 用 字符 串 的 split 方 法 或 正则 表达 式 
方法 re.split 进 行 行 拆 分 和 其 他 整理 工作 了 。 


要 手工 输出 分 隅 符 文 件 ， 你 可 以 使 用 
csV.wWriter 。 它 接受 一 个 已 打开 且 可 写 的 文件 对 象 
以 及 跟 csvreader 相 同 的 那些 语文 和 格式 化 选项 : 


with open('mydata.csv', 'w') as 了: 

writer = csv.writer(f, dialect=my_dialect) 
writer.writerow(('one', 'two', 'three')) 
writer.writerow(('1', '2', '3')) 
writer.writerow(('4', '5', '6')) 
writer.writerow(('7', '8', '9°')) 


JSON 数 据 


JSON (JavaScript Object Notation 的 简称 ) 已 
经 成 为 通过 HTTP 请 求 在 web 浏览 右 和 其 他 应 用 程 
序 之 间 发 送 数 据 的 标准 格式 之 一 。 它 是 一 种 比 表 
格 型 文本 格式 (如 CSV) 灵活 得 多 的 数据 格式 。 
下 面 是 一 个 例子 : 


obj 二 rr 
{"name": "Wes", 
"places_ lived": ["United States", "Spain", "Germany"|], 
"pet": null, 
"siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, 
{"name": "Katie", "age": 33, "pet": 
"Cisco"}] 


除 其 空 值 null 和 一 些 其 他 的 细微 差别 (如 列表 
末尾 不 允许 存在 多 余 的 逗号 ) 之 外 ，JSON 非 常 接 
近 于 有 效 的 Python 代码 。 基 本 类 型 有 对 象 ( 字 
典 ) 、 数 组 (列表 ) 、 字 符 串 、 数 值 、 布 尔 值 以 
及 nul。 对 象 中 所 有 的 键 都 必须 是 字符 串 。 许 多 
Python 库 都 可 以 谈 写 JSON 数 据 。 我 将 使 用 json， 
因为 它 是 构建 于 Python 标准 库 中 的 。 通 过 
json.loads 即 可 将 JSON 字 符 绅 转换 成 Python 形式 : 


In [899]: import json 
In [900]: result = json.1loads(obj) 


In [901]: result 


Out[901] : 
{u'name': u'Wes', 
u'pet': None, 
u'places_lived': [u'United States', u'Spain’', u'Germany'], 
u'siblings': [{u'age': 25, u'name': U'Scott '，U'pet ': 
u'Zuko'}, 
{Uu'age': 33, u'name': u'Katie', u'pet': u'Cisco'}]} 


相反 ，json.dumps 则 将 Python 对 象 转换 成 
JSON 格 式 : 


In [902]: asjson = json.dumps(result) 


如 何 将 (一 个 或 一 组 ) JSON 对 象 转换 为 
re 分 析 的 数据 结构 束 由 你 决定 
。 最 人 商 单方 便 的 方式 是: 辐 DataFrame 构 造 融 传 


Eee 并 选取 数据 字段 的 子 集 语 #5 。 


In [903]: siblings = DataFrame(result['siblings'], columns= 
['name', 'age']) 
In [904]: siblings 
Out[904]: 

name age 


© Scott 25 
1 Katie 33 


第 7 草 中 天 于 USDA Food Database 的 那个 例子 
0 0000 (包括 航 套 
L » O 


注意 : pandas 团 队 正 致力 于 为 pandas 添 加 原生 
的 高 就 JSON 导 出 (to_json) 和 解码 (from_json) 


功能 。 不 过 目前 还 没 开 发 完成 。 
XML 和 HTML: Web 信 息 收 集 


Python 有 许多 可 以 读 写 HTML 和 XML 格 式 数 
据 的 库 。lxml (http:/lxml.de) 就 是 其 中 之 一 ， 它 
能 够 高 效 旦 可靠 地 解析 大 文件 。lxml 有 多 个 编程 
接口 。 首 先 我 要 用 lxml.html 处 理 HTML， 然 后 再 用 
lxml.objectify 做 一 些 XML 处 理 。 


许多 网 站 都 将 数据 放 到 HTML 表 格 中 以 便 在 
浏览 硕 中 得 看 ， 但 不 能 以 一 种 更 易于 机 硕 阅 读 的 
格式 (如 JSON、HTML 或 XML) 进行 下 载 。 我 发 
现 Yahoo!Finance 的 股票 期 权 数 据 束 是 这 样 。 可 能 
你 对 这 种 数据 不 询 悉 ， 期 权 是 指使 你 有 权 从 现在 
开始 到 未 来 某 个 时 间 (到 期 日 ， 内 以 某 个 特定 价 
格 (执行 价 ) 买 进 (看 涨 期 权 ) 或 卖 出 (看 跌 期 
权 ) 某 公 司 股票 的 衍生 合约 。 人 们 的 看 涨 和 看 跌 
期 权 交 易 有 多 种 执行 价 和 到 期 日 ， 这 些 数 据 都 可 
以 在 YahoolFinance 的 各 种 表格 中 找到 。 

首 完 ， 找 到 你 希望 获取 数据 的 URL， 利 用 
urllib2 将 其 打开 ， 然 后 用 lxml 解 析 得 到 的 ] 数 据 流 ， 
如 下 所 示 : 


from lxml.html import parse 
from urllib2 import urlopen 


parsed = parse(urlopen('http://finance.yahoo.com/q/op? 
S=AAPL+Options ' ) ) 


doc = parsed.getroot() 


通过 这 个 对 象 ， 你 可 以 获取 特定 类 型 的 所 有 


HTML 标 签 


(tag) ， 比 如 含有 所 需 数 据 的 table 标 


签 。 给 这 个 简单 的 例子 加 点 局 发 性 ， 
到 该 文档 中 所 有 的 URL 链 接 。HTML 中 的 链接 是 

标签 。 使 用 文档 根 节 点 的 findall 方 法 以 及 一 个 

XPath (对 文档 的 “查询 ”的 一 种 表示 手段 ) 


In [906]: 


In [907]: 
Out [907]: 


links = doc.findall('.//a') 


links[15:20] 


[<Element a at Ox6c488f0>, 
<Element a at Ox6c48950>, 
<Element a at Ox6c489b0>, 
<Element a at Ox6c48a10>, 
<Element a at Ox6c48a70>] 


但 这 些 是 表示 HTML 元 素 的 对 象 。 要 得 到 
URL 和 链接 文本 ， 你 必须 使 用 各 对 象 的 get 方 法 


本 ) 


In [908]: 


In [909]: 
out[909] : 


In [910]: 
Out[910] : 


(针对 UREL) 和 text_content 方 法 (针对 显示 文 


lnk = links[28] 


lnk 
<Element a at 0x6c48dd0> 


lnk.get('href') 
'http://biz.yahoo.com/special.html' 


In [911]: lnk.text_content() 
Out[911]: "Special Editions' 


因此 ， 编 写 下 面 这 条 列表 推导 式 (list 
comprehension) 即 可 获取 文档 中 的 全 部 URL: 


In [912]: urls = [lnk.get('href') for lnk in 
doc.findall('.//a')] 


In [913]: urls[-10:] 
Out[913]: 
['http://info.yahoo.com/privacy/us/yahoo/finance/details.html 


'http://info.yahoo.com/relevantads/', 
'http://docs.yahoo.com/info/terms/', 
'http://docs.yahoo.com/info/copyright/copyright.html', 
'http://help.yahoo.com/l1/us/yahoo/finance/forms_index.html', 


'http://help.yahoo.com/l1/us/yahoo/finance/quotes/fitadelay.ht 


ml', 


'http://help.yahoo.com/l/us/yahoo/finance/quotes/fitadelay.ht 


ml', 
'http://www.capitaliq.com', 
'http://www.csidata.com', 
'http://www.morningstar.com/'] 


现在 ， 从 文档 中 找 出 正确 表格 的 办 法 殉 是 反 
复 翅 长 了 。 有 些 网 站 会 给 目标 表格 加 上 一 个 id 属 
1 两 个 分 别 放置 看 涨 数 据 和 看 跌 效 据 


tables = doc.findall('.//table') 
calls = tables[9] 
puts = tables[13] 


每 个 表格 者 有 一 个 标题 行 ， 然 后 才 征 数据 
位: 


In [915]: rows = calls.findall('.//tr') 


对 于 标题 行 和 数据 行 ， 我 们 希 青 获 取 每 个 音 
元 格 内 的 文本 。 对 于 标题 行 ， 束 征 中 单元 格 ， 而 对 
于 数据 行 ， 则 是 td 单元 格 : 


def _unpack(row, kind="'td"'): 
elts = row.findall('.//%s' % kind) 
return [val.text content() for val in elts] 


这 样 ， 我 们 束 得 到 了 : 


In [917]: _unpack(rows[0], kind='th') 
Out[917]: ['Strike', 'Symbol', 'Last', 'Chg', 'Bid', 'Ask', 
'Vol', 'Open Int'] 

In [918]: _unpack(rows[1], kind="'td') 

Out[918]: 

['295.00', 

'AAPL120818C00295000'， 

1310.40',， 

' 0.00', 

289.80' ， 

2990.80 ' ， 

1 1 , 

'169'] 


现在 ， 把 所 有 步 又 结合 起 来 ， 将 数据 转换 为 
一 个 DataFrame。 由 于 数值 型 数据 仍然 是 字符 串 格 
式 ， 所 以 我 们 希望 将 部 分 列 〈 可 能 不 是 全 部 ) 转 
换 为 浮 点 数 格式 。 虽 然 你 可 以 手工 实现 该 功能 ， 
但 是 pandas 恰 好 就 有 一 个 TextParser 类 可 用 于 日 动 


类 型 转换 (read_csv 和 其 他 解析 函数 其 实在 内 部 都 
用 到 了 它 ) : 


from pandas .io.parsers import TextParser 
def parse_options_datal(table): 
rows = table.findall('.//tr') 
header = _unpack(rows[0], kind='th') 
data = [_unpack(r) for r in rows[1:]] 
return TextParser(data, names=header).get_chunk() 


最 后 ， 我 对 那 两 个 lxml 表 格 对 象 调用 该 解析 
玉 数 并 得 到 最 终 的 DataFrame: 


In [920]: call data = parse_ options_ data(calls) 
In [921]: put_data = parse_options_data(puts) 


In [922]: call data[:10] 


Out[922]: 

Strike Symbol Last chg 
Bid Ask Vol Open Int 

© 295 AAPL120818C00295000 310 ,40 0.0 
289 .80 290 .80 1 169 

1 300 AAPL120818C00300000 277 .10 1.7 
284.80 285.60 2 478 

2 305 AAPL120818C00305000 300 .97 0.0 
279 .80 280 .80 10 316 

3 310 AAPL120818C00310000 267.05 0.0 
274.80 275.65 6 239 

4 315 AAPL120818C00315000 296 .54 0.0 
269 .80 270.80 22 88 

5 320 AAPL120818C00320000 291.63 0.0 
264.80 265.80 96 173 

6 325 AAPL120818C00325000 261.34 0.0 
259 .80 260 .80 N/A 108 

7 330 AAPL120818C00330000 230.25 0.0 
254.80 255.80 N/A 21 

8 335 AAPL120818C00335000 266 .03 0.0 
249 .80 250 .65 4 46 

9 340 AAPL120818C00340000 272.58 0.0 


244.80 245.80 4 30 


利用 ]xml.objectify 解 析 XML 


XML (Extensible Markup Language) 是 另 一 
种 和 常见 的 支持 分 技 、 骨 个 数据 以 及 元 数据 的 结构 
化 数据 格式 。 本 书 所 使 用 的 这 些 文件 实际 上 来 日 
于 一 个 很 大 的 XML 文档 。 


之 前 ， 我 介绍 了 lxml 库 及 其 lxml.html 接 口 。 这 
里 我 将 介绍 另 一 个 用 于 操作 XML 数据 的 接口 ， 即 


lixml.objectify ° 


纽约 大 都 会 运输 署 (Metropolitan 
Transportation Authority，MTA) 发 布 了 一 些 有 关 
其 公交 和 列车 服务 的 数据 质料 
(http://www.mta.info/developers/download.html) 
° 这里， 我 们 将 看 看 包含 在 一 组 XML 文 件 中 的 运 
行情 况 数 据 。 每 项 列车 或 公交 服务 部 有 人 各 目的 文 
件 (如 Metro-North Railroad 的 文件 是 


Performance MNR.xm]l'™ 6) ， 其 中 每 条 XML 记 
了 永 职 是 一 条 月 度数 据 ， 如 下 所 示 : 


<INDICATOR> 

<INDICATOR_SEQ>373889</INDICATOR_SEQ> 

<PARENT_ SEQ></PARENT_ SEQ> 

<AGENCY_NAME>Metro-North Railroad</AGENCY_NAME> 
<INDICATOR_NAME>Escalator Availability</INDICATOR_ NAME> 
<DESCRIPTION>Percent of the time that escalators are 
operational 

systemwide. The availability rate is based on physical 
observations performed the morning of regular business days 


only. This is a new indicator the agency began reporting in 
2009 .</DESCRIPTION> 
<PERIOD_YEAR>2011</PERIOD_YEAR> 

<PERIOD MONTH>12</PERIOD MONTH> 
<CATEGORY>Service Indicators</CATEGORY> 
<FREQUENCY>M</FREQUENCY> 
<DESIRED_CHANGE>U</DESIRED_ CHANGE> 
<INDICATOR_UNIT>%</INDICATOR_UNIT> 
<DECIMAL PLACES>1</DECIMAL PLACES> 
<YTD_TARGET>97 .00</YTD_TARGET> 
<YTD_ACTUAL></YTD_ACTUAL> 

<MONTHLY_ TARGET>97 .00</MONTHLY_TARGET> 
<MONTHLY_ACTUAL></MONTHLY_ACTUAL> 
</INDICATOR> 


我 们 先 用 lxmlobjectify 解 析 该 文件 ， 然 后 通过 
getroot 得 到 该 XML 文件 的 根 和 点 的 引用 : 


from JIxm]l Import objectify 


path = ' Performance_MNR .XmJ]， 
parsed = objectify.parse(open(path ) ) 
root = parsed.getroot() 


root.INDICATOR 返 回 一 个 用 于 产生 各 个 
<INDICATOR>XML 元 素 的 生成 右 。 对 于 每 条 记 
杂 ， 我 们 可 以 用 标记 名 (如 YTD_ACTUAL) 和 数 
据 值 填充 一 个 字典 (排除 几 个 标记 ) 吝 生 7， 


data = [] 


skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ '， 
'DESIRED_CHANGE', 'DECIMAL_PLACES'] 


for elt in root.INDICATOR: 
el data = {} 
for child in elt.getchildren( ): 
If child.tag in skip_fields: 
continue 


el data[child.tag] = child.pyval 
data.append(el_data) 


最 后 ， 将 这 组 字典 园 换 为 一 个 DataFrame: 


In [927]: perf = DataFrame(data) 


In [928]: perf 

Out[928] : 

<class 'pandas .core.frame,DataFrame '> 
Int64Index: 648 entries, 0 to 647 
Data _ columns : 

AGENCY_NAME 648 non-null values 
CATEGORY 648 non-null values 
DESCRIPTION 648 non-null values 
FREQUENCY 648 non-null values 
INDICATOR_NAME 648 non-null values 
INDICATOR_UNIT 648 non-null values 
MONTHLY_ACTUAL 648 non-null values 
MONTHLY_TARGET 648 non-null values 
PERIOD_ MONTH 648 non-null values 
PERIOD_YEAR 648 non-null values 
YTD_ACTUAL 648 non-null values 
YTD_TARGET 648 non-null values 
dtypes: int64(2), object(10) 


Empty DataFrame 
Columns: array([], dtype=int64) 
Index: array([], dtype=int64) 


XML 数据 可 以 比 本 例 复杂 得 多 。 每 个 标记 都 
可 以 有 元 数据 。 看 看 下 和 面 这 个 HTML 的 链接 标记 
( 它 也 算是 一 段 有 效 的 XML ) 
from StringIO import StringIO 


tag = '<a href="http://www.google.com">Go0ogle</a>' 


root = objectify.parse(StringI0(tag)).getroot() 


现在 驶 可 以 访问 链接 文本 或 标记 中 的 任何 字 
BeT (如 href) 


In [930]: root 
Out[930]: <Element a at 0Xx88bd4b0> 


In [931]: root.get('href') 
Out[931]: 'http://www.google.com' 


In [932]: root.text 
Out[932]: 'Google' 


译注 1: 还 是 那 句 话 ， 作 者 用 的 是 UNIX，Windows 

下 得 用 type 。 

译注 2， 这 里 的 “模式 ”一 词 表 示 的 是 “字符 串 ”。 如 

果 对 此 概念 较 模 糊 ， 建 议 阅 读 《 数 据 结 构 》。 

详 注 3; 准确 的 说 法 应 该 是 : 列 名 的 数量 比 列 的 数 
量 少 1。 完 整 的 说 法 应 该 是 : 列 名 “ 行 ? 中 * 有 内 容 

的 " 字 耻 数量 比 其 人 数据 < 和 行 ” 中 “有 内 容 的 ”字段 数 
2 人 1 O 

和 很 明显 ， 这 里 得 到 的 结果 不 是 元 组 而 是 列 

译注 5: 意思 是 说 可 以 选 一 部 分 字段 。 当 然 也 可 以 

全 部 选 完 。 


详 注 6: 该 文件 已 经 更 名 | 但 还 是 可 以 下 载 到 相关 


译注 7: 由 于 数据 文件 格式 已 经 改变 所 以 这 段 代 
码 不 能 直接 执行 了 ， 需 要 按照 新 的 数据 格式 稍微 
调整 一 下 ， 不 过 也 不 矿 烦 ， 留 给 读 痢 当 做 练习 
吧 。 


二 进 制 效 据 格式 


实现 数据 的 二 进 制 格式 存储 最 简单 的 办 法 之 
一 是 使 用 Python 内 置 的 pickle 序 列 化 。 为 了 使 用 方 
便 ，pandas 对 象 都 有 一 个 用 于 将 数据 以 pickle 形 式 
保存 到 做 盘 上 的 Save 方法 : 


In [933]: frame = pd.read_ csv('ch0O6/exi.csv') 


In [934]: frame 
Out[934]: 

a b c d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 
In [935]: frame.save('cho6/frame_pickle') 


你 可 以 通过 另 一 个 也 很 好 用 的 pickle 函 效 
pandas.load 将 数据 读 回 到 Python: 


In [936]: pd.load('cho6/frame_pickle') 
Out[936]: 


a b C d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


党 告 : pickle 仅 建议 用 于 短期 存储 格式 。 其 
原因 是 很 难 你 证 该 格式 永远 是 稳定 的 ; 今天 pickle 
的 对 象 可 能 无 法 人 彼 后 续 版 本 的 库 unpickle 出 来 。 昌 
然 我 尽力 保证 这 种 事情 不 会 发 生 在 pandas 中 ， 但 


征 今 后 的 某 个 时 候 说 不 定 还 是 得 “打破 ”该 pickle 格 
式 O 〇 


使 用 HDF5 格 式 


很 多 工具 都 能 实现 高 效 读 写 磁盘 上 以 二 进 制 
格式 存储 的 科学 数据 。HDF5 就 是 其 中 一 个 流行 的 
工业 级 库 ， 它 是 一 个 C 库 ， 带 有 许多 语言 的 接 
口 ， 如 Java、Python 和 MATLAB 等 。HDF5 中 的 
HDF 指 的 是 层次 型 数据 格式 (hierarchical data 
format) 。 每 个 HDF5 文 件 都 含有 一 个 文件 系统 式 
的 节点 结构 ， 它 使 你 能 够 存储 多 个 数据 集 并 支持 
元 数据 。 与 其 他 简单 格式 相 比 ，HDF5 支 持 多 种 压 
缩 器 的 即时 压缩 ， 还 能 更 高 效 地 存储 重复 模式 数 
据 。 对 于 那些 非常 大 的 无 法 直接 放 入 内 存 的 数据 
HDF5 就 古 不 应 的 选择 ， 因 为 它 可 以 高 效 地 分 


Python 中 的 HDF5 库 有 两 个 接口 ( 即 PyTables 
和 h5py) ， 它 们 各 上 自 采取 了 不 同 的 问题 解决 方 
式 。h5py 近 供 了 一 种 直接 而 局 级 的 HDF5API 访 问 
接口 ， 而 PyTables 则 抽象 了 HDF5 的 许多 细 市 以 提 
供 多 种 灵活 的 数据 容 右 、 表 索引 、 但 询 功 能 以 及 
对 核 外 计算 技术 (out-of-core computation) 的 某 
PE 


rood, 


pandas 有 一 个 最 小 化 的 类 似 于 字典 的 
HDFStore 类 ， 它 通过 PyTables 存 储 pandas 对 有 象 : 


In [937]: store = pd.HDFStore('mydata.h5s') 
In [938]: store['obj1'] = frame 

In [939]: store['obj1_ col'] = frame['a'] 
In [940]: store 

Out[940]: 

<class 'pandas.io.pytables.HDFStore'> 

File path: mydata.h5 


obj1 DataFrame 
obj1_col Series 


HDF5 文 件 中 的 对 象 可 以 通过 与 字典 一 样 的 方 
式 进行 获取 : 


In [941]: store['obj1'] 


Out[941]: 

a b C d message 
0 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


如 果 和 需要 处 理 海量 数据 ， 我 建议 你 好 好 人 研究 
一 下 PyTables 和 h5py， 看 看 它们 能 满足 你 的 哪些 
需求 。 由 于 许多 数据 分 析 问 题 都 是 IO 密集 型 (而 
不 是 CPU 密集 型 ) ， 利 用 HDF5 这 样 的 工具 能 显著 
提升 应 用 程序 的 效率 。 


党 后 : HDF5 个 是 数据 库 。 它 最 返 合 用 作 “ 一 
钦 写 多 次 读 ” 的 数据 集 。 虽 然 数 据 可 以 在 任何 时 候 


被 添加 到 文件 中 ， 但 如 果 同 时 发 生 多 个 写 操作 ， 
文件 就 可 能 会 被 破坏 。 


读 取 Microsoft Excel 文 件 


pandas 的 ExcelFile 尖 文 持 读 取 人 存储 在 Excel 
2003 (或 更 高 版 本 ) 中 的 表格 型 数据 。 由 于 
ExcelFile 用 到 了 xlrd 和 openpyxl 包 ， 所 以 你 先 得 安 
滁 它 们 才 行 。 通 过 传 入 一 个 ls 或 Xlsx 文 件 的 路 径 
即 可 创建 一 个 ExcelFile 实 例 : 


xls_file = pd.ExcelFile('data.xls') 


存放 在 某 个 工作 表 中 的 数据 可 以 通过 parse 读 
取 到 DataFrame 中 


table = xls_file.parse('Sheet1') 


使 用 HTML 和 Web API 


许多 网 站 都 有 一 些 通过 JSON 或 其 他 格式 提供 
数据 的 公共 API。 通 过 Python 访问 这 些 API 的 办 法 
有 不 少 。 一 个 简单 易 用 的 办 法 〈 推 荐 ) 是 requests 
包 (http://docs.python-requests.org) 。 为 了 在 
Twitter 上 搜索 "python pandas"， 我 们 可 以 发 送 一 个 
HTTP GET 请 求 ， 如 下 所 示 : 


In [944]: import requests 


In [945]: url = 'http://search,twitter.com/search.json? 
d=python%20pandas ' 


In [946]: resp = requests.get(url) 


In [947]: resp 
Out[947]: <Response [200]> 


Response 对 象 的 text 属 性 侣 有 GET 请 求 的 内 
容 。 许 多 Web API 退 回 的 都 是 JSON 字 符 串 ， 我 们 
必须 将 其 加 载 到 一 个 Python 对 象 中 : 


In [948]: import json 
In [949]: data = json.1loads(resp.text) 


In [950]: data.keys() 
out[950]: 
[u'next_page', 
u'completed_in', 
u'max_id_ str '， 
u'since_ id str', 


u'refresh_url', 
u'results', 
u'since_id', 
u'results_ per_page', 
u'query', 

u'max_id"', 

u'page'] 


呵 应 结果 中 的 results 字 7 段 含 有 一 组 tweet,， 
条 tweet 补 表示 为 一 个 Python 字 典 ， 如 下 所 示 : 


{Uu'created at': u'Mon, 25 Jun 2012 17:50:33 +0000', 
u'from user': u'wesmckinn', 

u'from user_id': 115494880, 

u'from user_id_ str': U'115494880 ' ， 

u'from_ user_name': U'Wes MCcKinney '， 

u'geo': None, 

u'id': 217313849177686018, 

u'id_str': U'217313849177686018 ' ， 
U'iso_language_code': u'pt', 

u'metadata': {u'result_ type': u'recent'}, 
u'source': u'<a href="http://twitter.com/">web</a>', 
u'text': u'Lunchtime pandas-fu http://t.co/SI70xZZQ 
#pydata', 

U'to user': None, 

u'to_user_id': 0, 

U'to_user_ id str': u'0O', 

uU'to_user_name': None} 


我 们 用 一 个 列表 定义 出 感 兴趣 的 tweet 字 上 段 ， 
然后 将 results 列 表 传 给 DataFrame: 


In [951]: tweet fields = ['created at', 'from user', 'id', 


'text'] 


In [952]: tweets = DataFrame(data['results'], 
columns=tweet_fields) 


In [953]: tweets 
Out[953] : 


<class 'pandas.core.frame.DataFrame'> 
Int64Index: 15 entries, © to 14 
Data columns: 


created at 15 non-null values 
from_user 15 non-null values 
id 15 non-null values 
text 15 non-null values 


dtypes: int64(1), object(3) 


现在 ，DataFrame 中 的 每 一 行 束 有 了 来 目 一 条 
tweet 的 数据 : 


In [121]: tweets.ix[7] 


Out[121]: 

created at Thu, 23 Jul 2012 09:54:00 +0000 
from_user deblike 
id 227419585803059201 
text pandas: powerful Python data analysis toolkit 
Name: 7 


要 想 能 够 直接 得 到 便于 分 析 的 DataFrame 对 
象 ， 只 需 再 多 费 些 精力 创建 出 对 常见 Web API 的 
更 高 级 接口 即 可 。 


使 用 数据 库 


在 许多 应 用 中 ， 数 据 很 少 取 目 文本 文件 ， 
为 用 这 种 方式 人 存储 大 量 数据 很 低 效 。 基 于 SQL 的 
关系 型 数据 库 (如 SQL Server、PostgreSQL 和 
MySQL 等 ) 使 用 非常 广泛 ， 此 外 还 有 一 些 非 SQL 
( 即 所 请 的 NoSQL) 型 数据 库 也 变 得 非常 流行 。 
数据 库 的 选择 通 沼 取决 于 性 能 、 数 据 完 整 性 以 及 
应 用 程序 的 伸缩 性 需求 。 


将 数据 从 SQL 加 载 天 DataFrame 的 过 程 很 们 
单 ， 此 外 pandas 还 有 一 些 能 够 简化 该 过 程 的 辑 
数 。 例 如 ， 我 将 使 用 一 蒜 航 入 式 的 SQLite 数 据 库 
(通过 Python 内 置 的 sqlite3 驱 动 右 ) : 


Import sqlite3 


query = """ 

CREATE TABLE test 

(a VARCHAR(20), b VARCHAR(20), 
c REAL, d INTEGER 
);""" 
con = sqlite3.connect(':memory:') 
con.execute(query) 

con.commit() 


然后 插入 儿 行 数据 : 


data = [('Atlanta', 'Georgia', 1.25, 6), 
('Tallahassee', 'Florida', 2.6, 3), 
('Sacramento', 'California', 1.7, 5)] 


Stmt = "INSERT INTO test VALUES(?, ?, ?, ?)" 


con.executemany(stmt, data) 
con.commit() 


从 表 中 选取 数据 时 ， 大 部 分 Python SQL 张 动 
明 (PYODBC 、 psycopg2、 MySQLdb 、pymssq]l 
等 ) 都 会 返回 一 个 元 组 列表 : 


In [956]: cursor = con.execute('select * from test ' ) 
In [957]: rows = cursor.fetchall() 


In [958]: rows 

Out[958]: 

[(u'Atlanta', u'Georgia', 1.25, 6), 
(u'Tallahassee', u'Florida', 2.6, 3), 
(u'Sacramento', u'California', 1.7, 5)] 


你 可 以 将 这 个 元 组 列表 传 给 DataFrame 的 构造 
和 但 还 需要 列 名 (位 于 游标 的 description 属 性 


In [959]: cursor.description 

Out[959 ] : 

(('a', None, None, None, None, None, None), 
('b', None, None, None, None, None, None), 
('c', None, None, None, None, None, None), 
('d', None, None, None, None, None, None)) 


In [960]: DataFrame(rows, columns=zip(*cursor.description) 


[9]) 


Out[960]: 

a b c d 
0 Atlanta Georgia 1.25 6 
1 Tallahassee Florida 2.60 3 
2 Sacramento California 1.70 5 


这 种 效 据 规整 哥 作 相当 多 ， 你 肯定 不 想 每 得 
一 次 数据 库 就 重 写 一 次 。pandas 有 一 个 可 以 简化 
该 过 程 的 read_frame 函 数 (位 于 pandas.io.sql 模 
其) 。 只 需 传 入 select 语 句 和 连接 对 和 象 即 可 : 


In [961]: import pandas.io.sql as sql 


In [962]: sql.read frame('select * from test', con) 
Out[962]: 


a b c d 
0 Atlanta Georgia 1.25 6 
1 Tallahassee Florida 2.60 3 
2 Sacramento California 1.70 5 


存 取 MongoDB 中 有 的 数据 


NoSQL 数 据 库 有 许多 不 同 的 形式 。 有 些 是 向 

单 的 字典 式 键 值 对 存储 〈 如 BerkeleyDB 和 Tokyo 
Cabinet) ， 男 一 些 则 是 基于 文档 的 (其 中 的 基本 
单元 是 字典 型 的 对 象 ) 。 本 例 选 用 的 是 MongoDB 

(http://mongodb.org) 。 我 先 在 自己 的 电脑 上 启 
动 一 个 MongoDB 实 例 ， 然 后 

(MongoDB 的 官方 驱动 器 ) 通过 默认 端口 进行 连 
接 : 


Import pymongo 
con = pymongo.Connection('localhost', port=27017) 


存储 在 MongoDB 中 的 文档 被 组 织 在 数据 库 的 
集合 (collection) “8 中 。MongoDB 服 务 器 的 每 


个 运行 实例 可 以 有 多 个 数据 库 ， 而 每 个 数据 库 叉 
可 以 有 多 个 集合 。 假 设 你 想 保 人 存 之 前 通过 Twitter 
API 获 取 的 数据 。 百 先 ， 我 可 以 访问 tweets 集 合 


(暂时 还 是 空 的 ) : 


tweets = con.db.tweets 


然后 ， 我 将 那 组 tweet 加 载 进来 并 通过 
tweets.save 〈 用 于 将 Python 字典 写 入 MongoDB) 
逐个 人 存 入 集合 
import requests, json 
url = 'http://search.twitter.com/search.json? 


d=python%20pandas ' 
data = json.loads(requests.get(ur1).text) 


for tweet in data[ 'results ' ] : 
tweets.Save(tweet ) 


现在 ， 如 采 我 想 从 该 集合 中 取出 我 目 己 发 的 
tweet (如 果 有 的 话 ) ， 可 以 用 下 面 的 代码 对 集合 
进行 查询 : 


cursor = tweets.find({'from user': 'wesmckinn'}) 


返回 的 游标 是 一 个 从 代 姨 ， 它 可 以 为 每 个 文 
档 产 生 一 个 字典 。 跟 之 前 一 样 ， 我 可 以 将 其 转换 
为 一 个 DataFrame。 此外， 还 可 以 只 获取 各 tweet 
的 部 分 字段 : 


tweet_fields = [created at', 'from user', 'id', "text '] 


result = DataFrame(list(cursor), columns=tweet_fields) 


译注 8: 如 果实 在 不 明白 ， 可 直接 想象 成 表 。 


第 7 革 ”数据 规整 化 : 请 理 、 转 换 、 合 


数据 分 析 和 建 模 方面 的 大 量 编程 工作 都 古 用 
在 数据 准备 上 的 : 加载、 清理、 转换 以 及 重 塑 。 
有 了 时候， 和 存放 在 文件 或 数据 库 中 的 数据 并 不 能 满 
足 你 的 数据 处 理应 用 的 要 求 。 许 多 人 都 选择 使 用 
通用 编程 语言 《如 Python、Perl、R 或 Java) 或 
UNIX 文 本 处 理工 具 (如 sed 或 awk) 对 数据 格式 进 
行 专 门 处 理 。 验 运 的 是 ，pandas 和 Python 标准 库 
提供 了 一 组 高 级 的 、 有 灵活 的 、 高 将 的 核心 国 数 和 
人 

» | 乡 工 O 


如 有 果 你 发 现 了 一 种 本 书 或 pandas 库 中 没有 的 
数据 操作 方式 ， 请 尽管 在 邮件 列表 或 GitHub 网 站 
上 提出 。 实 际 上 ，pandas 的 许多 设计 和 实现 都 是 
由 真实 应 用 的 需求 所 驱动 的 。 


合并 效 据 集 


pandas 对 象 中 的 数据 可 以 通过 一 些 内 置 的 方式 
进行 合并 : 

:pandas.merge 可 根据 一 个 或 多 个 键 将 不 同 
DataFrame 中 的 行 连接 起 来 。SQL 或 其 他 关系 型 数 
据 库 的 用 户 对 此 应 该 会 比较 融 悉 ， 因 为 它 实现 的 
驶 征 效 据 库 的 连接 操作 。 


:pandas.concat 可 以 沿 看 一 条 轴 将 多 个 对 象 堆 


登 到 一 起 。 

.实例 方法 combine _first 可 以 将 重复 数据 编 授 在 
一 起 ， 用 一 个 对 象 中 的 值 填 充 另 一 个 对 象 中 的 缺 
失 值 。 详 广 1 

我 将 分 别 对 它们 进行 讲解 ， 并 给 出 一 些 例 
子 。 本 书 剩 余部 分 的 示例 中 将 经 常用 到 它们 。 
数据 库 风 格 具 DataFrame 合 并 


数据 集 的 合并 (merge) 或 连接 (join) 运算 
是 通过 一 个 或 多 个 键 将 行 链接 起 来 的 。 这 些 运算 


是 关系 型 数据 库 的 核心 。pandas 的 merge 畏 数 是 对 
数据 应 用 这 些 算 法 的 主要 切入 点 。 


我 们 以 二 个 何 早 的 例子 天 妨 : 


In [15]: df1 = DataFrame({'key': ['b', 'b', 'a', 'cC', 'a', 
'a', 'b'], 
人 'data1i': range(7)}) 


In [16]: df2 = DataFrame({'key': ['a', 'b', 'd'], 
ey 'data2': range(3)}) 


Out[17]: 
datal key 
0 0 b 
1 1 b 
2 2 a 
3 3 C 
4 4 a 
5 5 a 
6 6 b 
In [18]: df2 
Out[18]: 
data2 key 
0 0 a 
1 1 b 
2 2 d 


这 是 一 种 多 对 一 的 合并 。df1 中 的 数据 有 多 个 
被 标记 为 a 和 b 的 行 ， 而 df2 中 key 列 的 每 个 值 则 仅 对 
应 一 行 。 对 这 些 对 象 调用 merge 即 可 得 到 : 


In [19]: pd.merge(df1i, df2) 


Out[19] : 

datal key data2 
0 2 a 0 
1 4 a 0 


ee merge 就 会 将 重 登 
不 过 


键 。 


In 


诗意， 


[20 ] : 


Out[20] : 


WOI 人 PP 品 


In 


“5 


In 


In 


datal 
2 


中 羽 呈 JI 人 


我 并 没有 指明 要 用 哪个 列 进 行 连 接 。 


j 的 列 名 当做 


， 最 好 显 式 指定 一 下 : 


pd.merge(df1i, df2, 


key 
a 


TTTyvy 


data2 


PPOOO 


on= 'key ') 


如 果 两 个 对 象 的 列 名 不 同 ， 也 可 以 分 别 进 行 
指定 : 


[21]: df3 


'"b ' ]， 


[22]: df4 


[23] : 


Out[23] : 
datal lkey 


OPOODNPO 


2 


OPOB 


DataFrame({'lkey': 


"datal ' : 


DataFrame({'rkey ': 


"data2 ' : 


range(7)}) 


['a', 'b", 'd'], 
range(3)}) 


pd.merge(df3, df4, left_on='lkey', right_on='rkey') 


a 


TT5Tyoy 


data2 rkey 
0 a 
0 a 
0 a 
1 b 
1 b 
1 b 


可 能 你 已 经 注意 到 了 ， 结 果 里 面 c 和 d 以 及 与 
之 相关 的 数据 消失 了 。 上 默认 情况 下 ，merge 做 的 
征 "inner" 连 接 ; 结 未 中 的 键 是 交集 。 其 他 方式 还 
有 "left"、"right" 以 及 "outer"。 外 连接 求 取 的 是 键 的 
开 集 ， 组 合 了 左 连 接 和 右 连 接 的 戏 来 : 


In [24]: pd.merge(df1i, df2, how='outer') 
Out[24]: 


datal key data2 
0 2 a 0 
得 4 a 0 
2 5 a 0 
3 0 b 1 
4 1 b 1 
5 6 b 1 
6 3 C NaN 
7 NaN d 2 


多 对 多 的 合并 操作 非 钊 简单 ， 无 需 笑 外 的 工 


In [25]: df1 = DataFrame({'key': ['b', 'b', 'a', ca， 
'b'], 

'data1i': range(6)}) 

In [26]: df2 = DataFrame({'key': ['a', 'b', 'a', 'b', 'd'], 

i 'data2': range(5)}) 


In [27]: df1 
Out[27]: 
datal key 


和 ONPO 
OP 局 


5 
In [28]: df 
Out[28]: 


DTVoIOhOLPTOSO 


data2 key 


0 0 a 
1 1 b 
2 2 a 
3 3 b 
4 4 d 


In [29]: pd.merge(df1i, df2, on='key', how="'left') 


datal key data2 
0 2 a 0 
1 2 a 2 
2 4 a 0 
3 4 a 2 
4 0 b 1 
5 0 b 3 
6 1 b 1 
7 1 b 3 
8 5 b 1 
9 5 b 3 
10 3 C NaN 


多 对 多 连接 产生 的 是 行 的 佛 卡 尔 积 。 由 于 磊 
边 的 DataFrame 有 ee 右边 的 有 2 个 ， 所 以 最 
终结 果 中 就 有 6 个 "b" 行 。 连 接 方式 只 影响 出 现在 
结果 中 的 键 : 


In [30]: pd.merge(df1i, df2, how='inner') 
Out[30]: 
datal key data2 

2 a 


(OOO PPO 
OPPROOASD 
TTT5Tyooyy 
OPOPOPNOODNDO 


要 根据 多 个 键 进行 侣 并， 传 入 一 个 由 列 名 组 
成 的 列表 即 可 : 


In [31]: left = DataFrame({'key1': ['foo', 'foo', 'bar'], 
es 'key2': ['one', 'two', 'one'l], 
'lval': [1, 2, 3]}) 


In [32]: right = DataFrame({'key1i': ['foo', 'foo', 'bar', 
'bar'], 
ee 'key2': ['one', 'one', 'one', 
'two'], 
证 'rval': [4, 5, 6, 71}) 
In [33]: pd.merge(left, right, on=['key1l', 'key2'], 
how="'outer') 


Out[33]: 

key1 key2 lval rval 
© bar one 3 6 
1 bar two NaN 7 
2 foo one 1 4 
3 foo one 1 5 
4 foo two 2 NaN 


结果 中 会 出 现 哪 些 刍 组合 取 决 于 所 选 的 合并 
方式 ， 你 可 以 这 样 来 理解 : 多 个 键 形成 一 系列 元 
组 ， 并 将 其 当做 单个 连接 键 〈 当 然 ， 实 际 上 并 不 
征 这 么 回 事 ) 。 


警告 ， 在 进行 列 一 列 连接 时 ，DataFrame 对 象 
中 的 索引 会 被 丢弃 。 


对 于 合并 运算 需要 考虑 的 最 后 一 个 问题 是 对 
重复 列 名 的 处 理 。 哩 然 你 可 以 手工 处 理 列 名 重 伟 
的 问题 ( 稍 后 将 会 介绍 如 何 重 命名 轴 标 签 ) ， 但 
merge 有 一 个 更 实用 的 suffixes 选 项 ， 用 于 指定 附加 


到 左右 两 个 DataFrame 对 和 象 的 重 舍 列 名 上 的 字符 


串 : 


In [34]: pd.merge(left, right, on="'key1') 


Out[34]: 

key1 key2 x lval key2 y rval 
© bar one 3 one 
1 bar one 3 two 7 
2 foo one 1 one 4 
3 foo one 1 one 5 
4 foo two 2 one 4 
5 foo two 2 one 5 


In [35]: pd.merge(left, right, on="'key1i', suffixes=("'_left', 


'_right"')) 
Out[35]: 
key1 key2_left lval key2 _right rval 

© bar one 3 one 

1 bar one 3 two 

2 foo one 1 one 

3 foo one 1 one 

4 foo two 2 one 

5 foo two 2 one 


merge 的 参数 请 参见 表 7-1。 
在 下 一 节 中 讲解 。 


表 7-1: merge 函数 的 参数 


参数 说 明 

left 参与 合并 的 左 侧 DataFrame 

right 参与 合并 的 右 侧 DataFrame 

how “inner” 、 “outer”、 “left”、 


“inner” 


索引 上 的 连接 将 


“right” 其 中 之 一 。 默 认为 


表 7-1: merge 国 数 的 参数 ( 续 ) 


left_on 
right_on 
left_index 
right_index 


sort 


suffixes 


copy 


说 明 

用 于 连接 的 列 名 。 必 须 存 在 于 左右 两 个 DataFrame 对 象 中 。 如 果 未 指 
定 ， 且 其 他 连接 键 也 未 指定 ， 则 以 left 和 right 列 名 的 交集 作为 连接 键 
左 侧 DataFrame 中 用 作 连 接 键 的 列 

右 侧 DataFrame 中 用 作 连 接 键 的 列 

将 左 侧 的 行 索 引用 作 其 连接 键 

类 似 于 left_index 

根据 连接 键 对 合并 后 的 数据 进行 排序 ， 黑 认为 True。 有 时 在 处 理 大 数 
据 集 上 时， 禁用 该 选项 可 获得 更 好 的 性 能 

字符 串 值 元 组 ， 用 于 追加 到 重 夸 列 名 的 末尾 ， 默 认为 ('_x', '_y')。 例 
如 ， 如 果 左 右 两 个 DataFrame 对 象 都 有 “data”， 则 结果 中 就 会 出 现 
“data x” 和 “data_y” 


设置 为 False， 可 以 在 某 些 特殊 情况 下 避免 将 数据 复制 到 结果 数据 结构 
中 。 黑 认 总 是 复制 


索引 上 的 合并 


有 时 候 ，DataFrame 中 的 连接 键 位 于 其 索引 
中 。 在 这 种 情况 下 ， 你 可 以 传 入 left_index=True 或 
right_index=True (或 两 个 都 传 ) 以 说 明 索 引 应 该 
伏 用 作 连 接 键 : 


In [36]: left1 = DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 


c'], 
....: 'Value': range(6)}) 

In [37]: right1 = DataFrame({'group_val': [3.5, 7]}, index= 
['a', 'b']) 
In [38]: left1 
Out[38] : 

key value 
0 a 0 
1 b 1 


WD 
(ea 
WN 


5 C 5 

In [39]: right1 

Out[39] : 
group_val 

a SS 

b 7.0 


In [40]: pd.merge(left1, right1, left_on='key', 
right_index=True) 


Out[40]: 

key value group_val 
0 a 0 3:75 
2 a 2 3.5 
3 a 3 3.5 
1 b 1 7.0 
4 b 4 7.0 


由 于 秩 认 的 merge 方 法 征求 取 连 接 键 的 交集 ， 
因此 你 可 以 通过 外 连接 的 方式 得 到 它们 的 并 集 : 


In [41]: pd.merge(left1, right1, left_on='key', 
right_index=True, how="'outer') 
Out[41] : 
key value group_val 
a 


ORPPODNO 
OTTTyvy 
OPPODNO 


对 于 层次 化 索引 的 数据 ， 事 情 丈 有 扩 复 灯 
UE: 
In [42]: lefth = DataFrame({'key1i': ['Oohio', ‘Ohio', "Ohio', 


'Nevada', 'Nevada'l], 
: 'key2': [2000, 2001, 2002, 2001, 


2002] ， 
bn 'data': np.arange(5. )}) 


In [43]: righth = DataFrame(np.arange(12).reshape((6, 2)), 
Re index=[['Nevada', 'Nevada', 
'Ohio', 'Ohio', 'Ohio', 'Ohio'], 

RE: [2001, 2000, 2000, 2000, 2001, 
2002]]， 
ee columns=['event1', 'event2 '] ) 
In [44]: lefth 
Out[44]: 
data key1 key2 


0 0 ohio 2000 

下 1 Ohio 2001 

2 2 Ohio 2002 

3 3 Nevada 2001 

4 4 Nevada 2002 

In [45]: righth 

Out[45]: 

event1 event2 

Nevada 2001 0 1 
2000 2 3 

Ohio 2000 4 5 
2000 6 Ed 
2001 8 9 
2002 10 11 


这 种 情况 下 ， 你 必须 以 列表 的 形式 指明 用 作 
合并 键 的 多 个 列 (注意 对 重复 索引 值 的 处 理 ) : 


In [46]: pd.merge(lefth, righth, left_on=['key1i', 'key2'], 


right_index=True) 


Out[46]: 

data key1 key2 event1 event2 
3 3 Nevada 2001 0 1 
0 0 Ohio 2000 4 5 
0 0 Ohio 2000 6 7 
1 1 Ohio 2001 8 9 
2 2 Ohio 2002 10 11 


In [47]: pd.merge(lefth, righth, left_on=['keyl1i', 'key2'], 
a right_index=True, how='outer') 


data key1 key2 event1 event2 


4 NaN Nevada 2000 2 3 
3 3 Nevada 2001 0 1 
4 4 Nevada 2002 NaN NaN 
(©) © Ohio 2000 4 5 
0 0 Ohio 2000 6 时 
1 1 Ohio 2001 8 9 
2 2 Ohio 2002 10 11 


同时 使 用 合并 双方 的 系 引 也 没 问题 : 


In [48]: left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.1]], 
index=['a', 'c', 'e'l], 
: columns=['Ohio', 'Nevada']) 


In [49]: right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.1], 

[13, 14]], 
a index=['b', 'c', 'd', 'e'], 

columns=['Missouri', 'Alabama']) 

In [50]: left2 


Out[50]: 

Ohio Nevada 
a 1 2 
C 3 4 
e 5 6 
In [51]: right2 
Out[51] : 

Missouri Alabama 
b 党 8 
CC 9 10 
d 11 12 
e 13 14 


In [52]: pd.merge(left2, right2, how="'outer', 
left_index=True, right_index=True) 


Out[52] : 

Ohio Nevada Missouri Alabama 
a ol 2 NaN NaN 
b NaN NaN 7 8 
C 3 4 9 10 
d NaN NaN 11 12 
e 5 6 13 14 


DataFramei 偿 有 一 个 join 实例 方法 ， 它 能 更 为 
方便 地 实现 按 索 引 合并 。 它 还 可 用 于 合并 多 个 市 
有 相同 或 相似 索引 的 DataFrame 对 象 ， 而 不 管 它们 
之 间 有 没有 重 县 的 列 。 在 上 面 那 个 例子 中 ， 我 们 
可 以 编写 : 


In [53]: left2.]join(right2, how='outer') 


Out[53] 

Ohio Nevada Missouri Alabama 
a 1 2 NaN NaN 
b NaN NaN 7 8 
C 3 4 9 10 
d NaN NaN 11 12 
e 5 6 13 14 


由 于 一 些 历史 原因 (早期 版 本 的 pandas) ， 
DataFrame 的 join 方法 是 在 连接 键 上 做 左 连 接 。 它 
还 文 持 参数 DataFrame 的 索引 跟 调用 者 DataFrame 
的 某 个 列 之 间 的 连接 : 


In [54]: left1,join(right1，on= ' Key ) 
Out[54] : 
key Value group_va 


0 a 0 3.5 
1 b 1 7.0 
2 a 2 3.5 
3 a 3 3.5 
4 b 4 7.0 
5 C 5 NaN 


最 后 ， 对 于 人 简单 的 索引 合并 ， 你 还 可 以 同 join 
传 入 一 组 DataFrame (后 面 我 们 会 介绍 更 为 通用 的 
concat 函 数 ， 它 也 能 实现 此 功能 ) : 


In [55]: another = DataFrame([[7.，8.]，[9.，10.]，[11.， 
12.], [16., 17.]], 

ee index=['a', 'c', 'e', 'f'], 
columns=['New York', 'Oregon']) 


In [56]: left2.join([right2, another]) 


Out[56]: 

Ohio Nevada Missouri Alabama New York Oregon 
a 1 2 NaN NaN 7 8 
C 3 4 9 10 9 10 
e 5 6 13 14 11 12 


In [57]: left2.join([right2, another], how='outer') 


Out[57]: 

Ohio Nevada Missouri Alabama New York Oregon 
a 1 2 NaN NaN 7 8 
b NaN NaN 7 8 NaN NaN 
C 3 4 9 10 9 10 
d NaN NaN 11 12 NaN NaN 
e 5 6 13 14 11 12 
f NaN NaN NaN NaN 16 17 


轴 丫 连接 


另 一 种 数据 合并 运算 也 被 称 作 连接 
(concatenation) 、 绑 定 (binding) 或 堆 午 


(stacking) 。NumPy 有 一 个 用 于 合并 原始 NumPy 
数组 有 办 concatenation 辆 数 : 


In [58]: arr = np.arange(12).reshape((3, 4)) 


In [59]: arr 


Out[59] : 

array([[ 9, 1， 2, 3], 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11]]) 


In [60]: np.concatenate([arr, arr], axis=1) 
Out[60]: 


array([ / 3]， 


2 
6, 7], 
0 


[ 9, 1, 2, 
[ 4, 5, 6, 
[ 8, 9, 10 11]]) 


3, 1 
7, 4, 5, 
，10，11 9 


了 于 了 


对 于 pandas 对 有 象 ， 市 
有 标签 的 轴 使 你 能 够 进一步 推广 数组 的 连接 
算 。 具 体 点 说 ， 你 还 需要 考虑 以 下 这 此 东西: 


:如 东 各 对 象 其 他 轴 上 的 索引 不 同 ， 那 些 轴 应 


该 是 做 并 集 还 是 交集 ? 
-结果 对 象 中 的 分 组 需要 各 不 相同 吗 ? 
:用 于 连接 的 轴 重 要 吗 ? 


pandas 风 concat 函 数 提供 了 一 种 能 月 解 决 这 些 
问题 的 可 菲 方式 。 我 将 给 出 一 些 例 子 来 讲解 其 使 
用 方式 。 假设 有 三 个 没有 重要 索引 | 的 Series: 


In [61]: si = Series([0, 1], index=['a', 'b']) 


In [62]: S2 = Series([2, 3, 4], index=['c', 'd', 'e']) 


In [63]: s3 = Series([5, 6], index=['f', 'g']) 


0 用 concat 可 以 将 值 和 索引 烙 合 在 
一 起 . 


In [64]: pd.concat([s1i, s2, s3]) 
Out[64]: 

a 0 

b 1 


个 DO 
DO OUOI 上 cm 


旺 认 情况 下 ，concat 是 在 axis=0 上 工作 的 ， 最 
终 产 生 一 个 新 的 Series。 如 果 传 入 axis=1， 则 结果 
了 驶 会 变 成 一 个 DataFrame (axis=1 是 列 ) : 


In [65]: pd.concat([S1，S2，S3]，axis=1) 
Out[65] : 
0 1 2 
© NaN NaN 
1 NaN NaN 
NaN 2 NaN 
NaN 3 NaN 
NaN 4 NaN 
NaN NaN 5 
NaN NaN 6 


这 种 情况 下 ， 为 外 一 条 轴 上 没有 重 登 ， 从 和 过 
引 的 有 序 并 集 (外 连接 ) 上 就 可 以 看 出 来 。 传 入 
join='inner 即 可 得 到 它们 的 交集 : 


In [66]: S4 = pd.concat([S1 * 5, s3]) 


OooNooy 


In [67]: pd.concat([s1i, s4], axis=1) In [68]: pd.concat([s1, 
s4], axis=1, join="'inner') 


Out[67] : Out[68] : 
0 1 0 1 

a 0 0 a © 0 

b 1 5 b 1 5 

f NaN 5 

g NaN 6 


你 可 以 通过 join_axes 指 定 要 在 其 他 轴 上 使 用 
的 索引 : 


In [69]: pd.concat([s1i, s4], axis=1, join_axes=[['a', 'c', 


'b', 'e']]) 
Out[69]: 

0 1 
a 0 0 
c NaN NaN 
b 1 5 
e NaN NaN 


过 有 个 问题 ， 参 与 连接 的 片段 在 结 来 中 区 
分 不 中 假设 你 想 要 在 连接 轴 上 创建 一 个 层次 化 
索引 。 使 用 keys 参 数 即 可 达到 这 个 目的 : 


In [70]: result = pd.concat([si, si1i, s3], keys=['one', 'two', 


'three']) 

In [71]: result 
Out[71]: 

one 


two 


OPOPO 


three 


OhToVTYV 


# 稍 后 将 详细 讲解 unstack 画 数 
In [72]: result.unstack() 


Out[72]: 

a b f g 
one 0 1 NaN NaN 
two 0 1 NaN NaN 


three NaN NaN 5 6 


如 于 汽 着 axis=1 对 Series 进 行 合并 ， 则 keys 丈 
会 成 为 DataFrame 的 列 头 : 


In [73]: pd.concat([S1，S2，S3]，axis=1，KkeyS=['one'， "two'， 
'three' |]) 
Out[73]: 

one two three 


a © NaN NaN 
b 1 NaN NaN 
c NaN 2 NaN 
d NaN 3 NaN 
e NaN 4 NaN 
f NaN NaN 5 
g NaN NaN 6 


同样 的 逻辑 对 DataFrame 对 象 也 是 一 样 : 


In [74]: df1 = DataFrame(np.arange(6).reshape(3, 2), index= 
[a 'b", “C5 
: columns=['one', 'two']) 


In [75]: df2 


= DataFrame(5 + np.arange(4).reshape(2, 2), 
index=['a', 'c'], 


columns=['three', 'four ']) 


In [76]: pd.concat([df1, df2], axis=1, keys=['level1', 


'level2'1]) 
Out[76]: 
Jevell1 lJevel2 
one two three four 
a 0 1 5 6 
b 2 3 NaN NaN 
C 4 5 7 8 


如 朱伟 入 的 不 是 列表 而 生 一 个 字典 ， 则 字典 
的 键 束 会 似 当 做 keys 迁 项 的 值 : 


In [77]: pd.concat({'level1': df1， 'level2': df2}, axis=1) 


Out[77]: 
Jevell1 lJevel2 
one two three four 
a 0 1 5 6 
b 2 3 NaN NaN 


C 4 5 7 8 


此 外 还 有 两 个 用 于 管理 层次 化 索引 创建 方式 
的 参数 (参见 表 7-2) 


In [78]: pd.concat([df1, df2], axis=1, keys=['level1', 


'level2'], 
names=['upper', 'lower']) 
Out[78]: 
upper levelli level2 
lower one two three four 
a 0 1 5 6 
b 2 3 NaN NaN 
C 4 5 7 8 


最 后 一 个 需要 考虑 的 问题 是 ， 跟 当前 分 析 工 
作 无 关 的 DataFrame 行 索引 证 王 2 


In [79]: df1 = DataFrame(np.random.randn(3, 4), columns=['a', 
'b", Ce > 'd']) 


In [80]: df2 = DataFrame(np.random.randn(2, 3), columns=['b", 


'd", 'a']) 
In [81]: df1 
Out[81]: 

a b c d 
0 -0.204708 0.478943 -0.519439 -0.555730 
1 1.965781 1.393406 0.092908 0.281746 
2 0.769023 1.246435 1.007189 -1.296221 
In [82]: df2 
Out[82]: 

b d a 


© 0.274992 0.228913 1.352917 
1 0.886429 -2.001637 -0.371843 


在 这 种 情况 下 ， 传 入 ignore_index=True 即 可 : 


In [83]: pd.concat([df1，df2]，ignore_index=True) 
Out[83]: 

a b C d 
0 -0.204708 0.478943 -0.519439 -0.555730 


1 1.965781 1.393406 0.092908 0.281746 
2 0.769023 1.246435 1.007189 -1.296221 
3 1.352917 0.274992 NaN 0.228913 
4 -0.371843 0.886429 NaN -2.001637 
表 7-2: concat 贺 数 的 参数 
参数 说 明 
objs 参与 连接 的 pandas 对 象 的 列表 或 字典 。 唯 一 必需 的 参数 
axis 指明 连接 的 轴 向 ， 默 认为 0 
join “inner”、“outer” 其 中 之 一 ， 默 认为 “outer”。 指 明 其 他 轴 向 上 
的 索引 是 按 交集 (inner) 还 是 并 集 (outer) 进行 合并 
join_axes 指明 用 于 其 他 n-1 条 轴 的 索引 ， 不 执行 并 集 / 交 集运 算 
keys 与 连接 对 象 有 关 的 值 ， 用 于 形成 连接 轴 向 上 的 层次 化 索引 。 可 以 是 任 
意 值 的 列表 或 数组 、 元 组 数组 、 数 组 列表 (如 果 将 levels 设 置 成 多 级 数 
组 的 话 ) 
levels 指定 用 作 层 次 化 索引 各 级 别 上 的 索引 ， 如 果 设 置 了 keys 的 话 年 
names 用 于 创建 分 层级 别 的 名 称 ， 如 果 设 置 了 keys 和 (或 ) levels 的 话 
verify_integrity 检查 结果 对 象 新 轴 上 的 重复 情况 ， 如 果 发 现 则 引发 异常 。 默 认 
(False) 允许 重复 


ignore_index ”不 保留 连接 轴 上 的 索引 ， 产生 一 组 新 索引 range(total_length) 


译注 3， 就 是 外 层级 别 的 索引 。 
合并 重 舍 数据 


还 有 一 种 数据 组 合 问题 不 能 用 们 日 的 合并 
(merge) 或 连接 (concatenation) 0 " 
比如 说 ， 你 可 能 有 索引 全 部 或 部 分 重 车 的 两 个 数 
据 集 。 给 这 个 例子 增加 一 点 局 发 性 ， 我 们 使 用 
NumPy 的 where 函 数 ， 它 用 于 表达 一 种 天 量化 的 让 


else: 


In [84]: a = Series([np.nan，2.5，np.nan，3.5，4.5，np.nan]， 
a index=['f', 'e', 'd', 'c', 'b', 'a']) 


In [85]: b = Series(np.arange(len(a), dtype=np.float64), 
a index=['f', 'e', 'd', 'c', 'b', 'a']) 


In [86]: b[-1] = np.nan 


In [87]: a In [88]: b In [89]: 
np.where(pd.isnull(a), b, a) 

Out[87]: Out[88]: Out[89] : 
f NaN f 0 f 0.0 
e 2.5 e 1 e 2.5 
d NaN d 2 d 2.0 
C 3.5 C 3 C 3.5 
b 4.5 b 4 b 4.5 
a NaN a NaN a NaN 


Series 有 一 个 combine_first 方 法 ， 实 现 的 也 是 
一 样 的 功能 ， 而 且 会 进行 效 据 对 齐 : 
In [90]: b[:-2].combine first(a[2:]) 


Out[90] : 
a NaN 


了 homoon 
OPDNDO 
©OOOO0 


对 于 DataFrame，combine first 目 然 也 会 在 列 
上 做 同样 的 事情 ， 因 此 你 可 以 将 其 看 做 : 用 参数 
对 象 中 的 数据 为 调用 者 对 象 的 缺失 数据 “ 打 补 
站 


'b': [np.nan, 2., np.nan, 6.1], 
'c': range(2, 18, 4)}) 


In [92]: 
In [93]: 
Out[93] : 

b 


NaN 
2 


4 
6 
8 


df2 = DataFrame({'a': [5., 4., np.nan, 3., 7.], 
'b': [np.nan, 3., 4., 6., 8.1]}) 


df1.combine_first(df2) 


译注 1: 通俗 来 说 ， 卷 不 多 吏 生 数据 库 的 全 外 连接 
(注意 “差不多 ”和 “全 外 连 毛 ”这 两 个 词 ) 。 简 单 地 

说， 器 古 先 从 第 一 个 对 象 中 碗 值 ， 不 行 束 再 去 第 

二 个 对 象 中 选 值 。 

译注 2: 也 吏 是 说 那些 行 索引 是 无 意义 的 。 


重 槛 和 轴 辐 旋转 


有 许多 用 于 重 狐 排列 表格 型 数据 的 基础 运 
算 。 这 些 函 数 也 称 作 重 塑 (reshape) 或 轴 癌 旋转 
(pivot) 运算 。 


重 塑 质 庆 化 索引 


层次 化 索引 为 DataFrame 数 据 的 重 排 任务 提供 
了 一 种 具有 民 好 一 致 性 的 方式 。 主 要 功能 有 二 : 


stack， 将 数据 的 列 “旋转 * 为 行 。 
unstack:， 将 数据 的 行 “旋转 "为 列 。 


我 将 通过 一 系列 的 范例 来 讲解 这 些 操作 。 接 
下 来 看 一 个 简单 的 DataFrame， 其 中 的 行列 索引 均 
为 字符 串 : 


In data = DataFrame(np arange(6) ， ww 3)), 
index=pd.Index(['Ohio 

icolorado， ]，name= ' State， 

和 columns= pd.Index(['one', 'two', 

'three'], name='number')) 


In [95]: data 

Out[95]: 

number one two three 
state 


Ohio (©) 
Colorado 3 4 5 


使 用 该 数据 的 stack 方 法 即 可 将 列 转换 为 行 ， 


得 到 一 个 Series: 


[| 
| 


In [96]: result = data.stack() 


In [97]: result 


Out[97]: 

state number 

Ohio one 0 
two 1 
three 2 

Colorado one 3 
two 4 
three 5 


对 于 一 个 层次 化 索引 的 Series， 你 可 以 用 
unstack 将 其 重 排 为 一 个 DataFrame: 


In [98]: result.unstack() 


Out[98]: 

number one two three 
state 

Ohio 0 1 2 
Colorado 3 4 5 


默认 情况 下 ，unstack 操 作 的 是 最 内 层 (stack 
也 是 如 此 ) 。 传 入 分 层级 别 的 编号 或 名 称 即 可 对 
其 他 级 别 进行 unstack 控 作 : 


In [99]: result.unstack(0) In [100]: 
result.unstack('state') 

Out[99]: Out[100]: 

state Ohio Colorado state Ohio Colorado 


number number 


one 0 3 one 0 3 
two 1 4 two 1 4 
three 2 5 three 2 5 


如 琳 不 是 所 有 的 级 别 值 都 能 在 各 分 组 中 找到 
的 话 ， 则 unstack 操 作 可 能 会 引入 缺失 数据 : 


In [101]: si = Series([0, 1, 2, 3], index=['a', 'b', 'c', 
'd']) 

In [102]: S2 = Series([4, 5, 6], index=['c', 'd', 'e']) 

In [103]: data2 = pd.concat([si1i, s2], keys=['one', 'two']) 


In [104]: data2.unstack() 


Out[104]: 

a b c d e 
one 0 1 2 3 NaN 
two NaN NaN 4 5 6 


ee 小 除 缺 失 数 据 ， 因 此 该 运算 十 可 
J bj: 


In [105]: data2.unstack().stack() In [106]: 
data2.unstack().stack(dropna=False) Out[105]: 
Out[106]: 

one one 


DODoDoo 5 
DO 人 上 wm 六 品 
DDoS5SmnpnmoDono Un 

之 

v9 

2 


在 对 DataFrame 进 行 unstack 操 作 时 ， 作 为 旋转 
轴 的 级 别 将 会 成 为 结果 中 的 最 低级 别 : 


In [107]: df = DataFrame({'left': result, 'right': result + 


5}, 
oe columns=pd.Index(['left', 
'right'], name="'side')) 


In [108]: df 


Out[108]: 
side left right 
state number 
Ohio one 0 5 

two 1 6 

three 2 7 
Colorado one 3 8 

two 4 9 

three 5 10 
In [109]: df.unstack('state') In [110]: 
df.unstack('state').stack('side') 
Out[109]: Out[110]: 
side left right state Ohio 
Colorado 
state Ohio Colorado Ohio Colorado number side 
number one Jeft 0 
3 
one 0 3 5 8 right 5 
8 
two 1 4 6 9 two left 1 
4 
three 2 5 7 10 right 6 
9 

three left 2 
5 
right 7 

10 


将 “长 格式 ? 诞 较为 " 砚 属 式 ” 


了 时间 序列 数据 通常 是 以 所 谓 的 “长 格 
式 ”(long) 或 “ 堆 秋 格式 ”(stacked) 存储 在 数据 
库 和 CSV 中 的 : 评注 4 


In [116]: ldata[ :10] 
Out[116] : 


date item value 
0 1959-03-31 00:00:00 realgdp 2710.349 
1 1959-03-31 00:00:00 infl 0.000 
2 1959-03-31 00:00:00 unemp 5.800 
3 1959-06-30 00:00:00 realgdp 2778.801 
4 1959-06-30 00:00:00 infl 2.340 
5 1959-06-30 00:00:00 unemp 5.100 
6 1959-09-30 00:00:00 realgdp 2775.488 
7 1959-09-30 00:00:00 infl 2.740 
8 1959-09-30 00:00:00 unemp 5 .300 
9 1959-12-31 00:00:00 realgdp 2785.204 


关系 型 数据 库 (如 MySQL) 中 的 数据 经 常 都 
是 这 样 存 储 的 ， 因 为 固定 架构 ( 即 列 名 和 数据 类 
型 ) 有 一 个 好 处 : 随 着 表 中 数据 的 添加 或 删除 ， 
item 列 中 的 值 的 种 类 能 够 增加 或 减少 。 在 上 面 那 
个 例子 中 ，date 和 item 通 常 束 是 主键 (用 关系 型 数 
据 库 的 说 法 ) ， 不 仅 提供 了 关系 完整 性 ， 而 且 提 
供 了 更 为 简单 的 查询 文 择 。 当 然 这 也 是 有 缺点 
的 : 长 格式 的 数据 操作 起 来 可 能 不 那么 轻松 。 你 
可 能 会 更 喜欢 DataFrame， 不 同 的 item 值 分 别 形成 
一 列 ，date 列 中 的 时 间 值 则 用 作 索 引 。DataFrame 
的 pivot 方 法 完全 可 以 实现 这 个 转换 : 


In [117]: pivoted = ldata.pivot('date', 'item', 'value') 


In [118]: pivoted.head() 


Out [118] : 


item infl realgdp unemp 

date 

1959-03-31 0.00 2710.349 5.8 
1959-06-30 2.34 2778.801 953 站 
1959-09-30 2.74 2775.488 Dn3 
1959-12-31 0.27 2785.204 5.6 
1960-03-31 2.31 2847.699 S52 


前 两 个 参数 值 分 别 用 作 行 和 列 索引 的 列 名 ， 
最 后 一 个 参数 值 则 起 用 于 填充 DataFrame 的 效 据 列 
的 列 名 。 假 设 有 两 个 需要 参与 重 塑 的 数据 列 : 


In [119]: ldata['value2'] = np.random.randn(len(ldata)) 
In [120]: ldatal[:10] 
Out[120]: 

date item value value2 
0 1959-03-31 00:00:00 realgdp 2710.349 1.669025 
1 1959-03-31 00:00:00 infl 0.000 -0.438570 
2 1959-03-31 00:00:00 unemp 5.800 -0.539741 
3 1959-06-30 00:00:00 realgdp 2778.801 0.476985 
4 1959-06-30 00:00:00 infl 2.340 3.248944 
5 1959-06-30 00:00:00 unemp 5.100 -1.021228 
6 1959-09-30 00:00:00 realgdp 2775.488 -0.577087 
7 1959-09-30 00:00:00 infl 2.740 0.124121 
8 1959-09-30 00:00:00 unemp 5.300 0.302614 
9 1959-12-31 00:00:00 realgdp 2785.204 0.523772 


如 条 名 略 最 后 一 个 参数 ， 得 到 的 DataFrame 职 
会 市 有 层次 化 的 列 : 


In [121]: pivoted = ldata.pivot('date', 'item') 
In [122]: pivoted[:5] 
Out[122] : 
Value Value2 
item infl realgdp unemp infl realgdp 


unemp 


date 


1959-03-31 0.00 2710 .349 5.8 -0.438570 1.669025 
-0.539741 

1959-06-30 2.34 2778.801 5.1 3.248944 0.476985 
-1.021228 

1959-09-30 2.74 2775.488 5.3 0.124121 -0.577087 
0.302614 

1959-12-31 0.27 2785 .204 5.6 0.000940 0.523772 
1.343810 

1960-03-31 Zn31 2847.699 5.2 -0.831154 -0.713544 
-2.370232 


In [123]: pivoted['value'][:5] 


Out[123]: 

item infl realgdp unemp 
date 

1959-03-31 0.00 2710.349 5.8 
1959-06-30 2.34 2778.801 5.1 
1959-09-30 2.74 2775.488 5.3 
1959-12-31 0.27 2785.204 5.6 
1960-03-31 2.31 2847.699 S52 


注意 ，pivot 其 实 只 是 一 个 快捷 方式 而 已 : 用 
set_index 创 建 层 次 化 索引 ， 再 用 unstack 重 塑 。 


In [124]: unstacked = ldata.set_index(['date', 
'item']).unstack('item') 


In [125]: unstacked[:7] 


Out[125]: 
value value2 

item infl realgdp unemp infl realgdp 
unemp 

date 

1959-03-31 0.00 2710.349 5.8 -0.438570 1.669025 
-0.539741 

1959-06-30 2.34 2778.801 5.1 3.248944 0.476985 
-1.021228 


1959-09-30 2.174 2775.488 5.3 0.124121 -0.577087 
0.302614 
1959-12-31 0.27 2785.204 5.6 0.000940 0.523772 
1.343810 


1960-03-31 2.31 2847.699 5.2 -0.831154 -0.713544 
-2.370232 
1960-06-30 0.14 2834.390 5.2 -0.860757 -1.860761 
0.560145 
1960-09-30 2.710 2839.022 5.6 0©0.119827 -1.265934 
-1.063512 


译注 4: 由 于 作者 在 此 处 并 未 介绍 ldata 的 生成 代 
码 ， 而 后 面 又 需要 用 到 ， 所 以 不 能 独立 看 待 这 上 段 
代码 。 下 载 的 资料 采用 的 不 是 这 个 格式 ， 需 要 处 
理 一 下 才 可 用 。 如 果 不 会 处 理 或 觉得 太太 烦 ， 束 
用 Excel 编 辑 一 下 吧 。 不 过 还 是 建议 处 理 一 下 ， 就 
当做 练 手 了 。 给 个 相对 比较 简单 的 小 提示 : 先 加 
I 


数据 转换 


本 章 到 目前 为 止 介绍 的 都 是 数据 的 重 排 。 力 
I ` 消 理 以 及 其 他 的 转换 工 


移 除 重复 效 据 


DataFrame 中 第 常会 出 现 重 复 行 。 下 面 束 是 一 
个 例子 : 


In [126]: data = DataFrame({'k1i': ['one'] *3+ ['two'] * 4, 
pe 'k2': [1, 1, 2, 3, 3, 4, 4]}) 


In [127]: data 
Out[127]: 

ki 
one 
one 
one 
two 
two 
two 
two 


入 


OOONPO 
ROOOPAPPADND 


DataFrame 的 duplicated 方 法 返回 一 个 布尔 型 
Series， 表 示 各 行 是 个 是 重复 行 : 


In [128]: data.duplicated() 
Out[128]: 

0 False 

1 True 


False 
False 
True 
False 
True 


还 有 一 个 与 此 相关 的 drop_duplicates 方 法 ， 它 
用 于 返回 一 个 移 除 了 重复 行 的 Data-Frame 5; 


In [129]: data.drop_duplicates() 
Out[129]: 

k1 
one 
one 
two 
two 


这 两 个 方法 默认 会 判断 全 部 列 ， 你 也 可 以 指 
定 部 分 列 进行 重复 项 判断 。 假 设 你 还 有 一 列 值 ， 
日 只 希望 根据 k1 列 过 滤 重 复 项 ; 


In [130]: data['vi'] = range(7) 


OOOOOD 


入 


OWNO 
入 ODPDND 


In [131]: data.drop_duplicates(['k1"']) 
Out[131]: 
ki Kk2 vi 
© one 1 0 
3 two 3 3 


duplicated 和 drop_duplicates 默 认 傈 留 的 是 第 一 
个 出 现 的 值 组 合 。 传 入 take_last=True 则 保留 最 后 


= 


In [132]: data.drop duplicates([{'Kk1i', 'k2'], take last=True) 
Out[132]: 
k1 k2 vi 


1 one 1 1 
2 one 2 2 
4 two 3 4 
6 two 4 6 


利用 函数 或 映射 进行 数据 轻 换 


在 对 数据 集 进行 转换 时 ， 你 可 能 希望 根据 数 
组 、Series 或 DataFrame 列 中 的 全 来 实现 该 转换 工 
作 。 我 们 来 看 看 下 面 这 组 有 关内 类 的 数据 : 


In [133]: data = DataFrame({'food': ['bacon', 'pulled pork '， 
'bacon', 'Pastrami', 
a "corned beef', 'Bacon', 
'pastrami', 'honey ham '， 
Po 'nova lox'], 
a 'ounces': [4, 3, 12, 6, 7.5, 8, 
3, 5, 6]}) 
In [134]: data 
Out[134]: 
food ounces 
bacon 4. 
pulled pork 3. 
bacon 12 
Pastrami 6 
corned beef 7 
Bacon 8. 
pastrami 3 
honey ham 5 
nova lox 6 


假设 你 想 要 添加 一 列表 示 该 内 类 食物 来 产 的 
动物 类 型 。 我 们 先 编写 一 个 肉 类 到 动物 的 映 册 : 


meat_to_ animal = { 
'bacon': 'pig', 


OORRPOWODNPO 
OOOOoooo 


"pulled pork ' : 


“pig ， 


'pastrami': "cow'， 


"Corned beef ' : 
honey ham ' : 


"COW ' ， 
pig ， 


Inova lox': 'SalLmon' 


Series 的 map 方 法 可 以 接受 一 


个 落 数 或 公有 了 映 


出 关 系 的 字典 型 对 象 ， 但 苹 这 里 有 一 个 小 问题 ， 
妈 有 些 肉 类 的 自 字 酸 大 写 了 ， 而 为 一 些 则 没有 。 


因此 ， 我 们 还 


In [136]: data['animal'] = 
data['food'].map(str.lower).map(meat_to_animal) 


In [137]: data 
Out[137] : 
food 
bacon 
pulled pork 
bacon 
Pastrami 
corned beef 
Bacon 
pastrami 
honey ham 
Nova lox 


ON PO 


S 
0 
0 
0 
0 
,D 
0 
0 
0 
0 


animal 
pig 
pig 
p19g 
COW 
COW 
pig 
COW 
pig 
salmon 


需要 将 各 个 值 各 换 为 小 写 : 


我 们 也 可 以 传 入 一 个 能 够 完成 全 部 这 些 工作 


的 东 数 : 


In [138]: data[l'food'].map(lambda x: 


meat_to _ animal[x.lower()]) 


Out[138]: 

0 pig 
1 pig 
2 pig 
3 COW 


4 COw 
5 pig 
6 COW 
7 pig 
8 salmon 
Name: food 


使 用 map 坪 一 种 实现 元 系 级 园 换 以 及 其 他 数 
据 消 理工 作 的 便捷 方式 。 


叔 换 值 


利用 fillna 方 法 填充 缺失 数据 可 以 看 做 值 蕉 换 
的 一 种 特殊 情况 。 里 然 剖 面 近 到 的 map 可 用 于 修 
改 对 象 的 数据 于 和 集 ， 而 replace 则 所 供 了 一 种 实现 
该 功能 的 更 侧 单 、 更 灵活 的 方式 。 我 们 来 看 看 下 


面 这 个 Series: 
In [139]: data = Series([1., -999., 2., -999., -1000., 
3.]) 


In [140]: data 
Out[140]: 

1 
-999 

2 
-999 
-1000 

3 


-999 这 个 值 可 能 是 一 个 表示 缺失 数据 的 标记 
值 。 要 将 其 蔡 换 为 pandas 能 够 理解 的 NA 值 ， 我 们 
可 以 利用 replace 来 产生 一 个 新 的 Series: 


On 口 


In [141]: data.replace(-999, np.nan) 
Out[141]: 
1 
NaN 
2 
NaN 
-1000 
3 


如 琳 你 希望 一 次 性 督 换 多 个 值 ， 可 以 传 入 一 
个 由 每 蕉 换 值 组 成 的 列表 以 及 一 个 蔡 换 值 : 


In [142]: data.replace([-999, -1000], np.nan) 
Out[142]: 
1 
NaN 
2 
NaN 
NaN 
3 


如 抹布 望 对 不 同 的 值 进行 不 同 的 蔡 换 ， 则 传 
入 一 个 由 替换 关系 组 成 的 列表 即 可 : 


In [143]: data.replace([-999, -1000], [np.nan, 01]) 
Out[143]: 

0 1 

1 NaN 
2 2 
3 NaN 
4 

5 


OROODNOPO 


Own 局 


0 
3 


传 入 的 参数 也 可 以 是 字典 : 


In [144]: data.replace({-999: np.nan, -1000: 0}) 
Out[1441]: 
0 1 


工 NaN 
2 2 
3 NaN 
4 0 
5 3 


重 命名 轴 索 引 


跟 Series 中 的 值 一 样 ， 轴 标签 也 可 以 通过 函数 
或 映射 进行 转换 ， 从 而 得 到 一 个 新 对 象 。 轴 还 可 
以 补 束 地 修改 ， 而 无 需 新 建 一 个 数据 结构 。 授 下 
来 看 看 下 面 这 个 简单 的 例子 : 


In [145]: data = DataFrame(np.arange(12).reshape((3, 4)), 
让 index=['Ohio', 'Colorado', 'New 
York'], 
a columns=['one', 'two', 'three', 
'four']) 


跟 Series 一 样 ， 轴 标签 也 有 一 个 map 方 法 : 


In [146]: data.index.map(str.upper) 
Out[146]: array([OHIO, COLORADO, NEW YORK], dtype=object) 


你 可 以 将 其 赋值 给 index， 这 样 就 可 以 对 
DataFrame 进 行 束 地 修改 了 : 


In [147]: data.index = data.index.map(str.upper) 


In [148]: data 
Out[148]: 

one two three four 
OHIO © 1 2 3 


COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


如 果 想 要 创建 数据 集 的 转换 版 (而 不 是 修改 
原始 数据 ) ， 比 较 实 用 的 方法 是 rename: 


In [149]: data.rename(index=str.title, columns=str.upper) 


Out[149]: 

ONE TWO THREE FOUR 
Ohio 0 1 2 3 
Colorado 4 5 6 7 
New York 8 9 10 11 


特别 说 明 一 下 ，rename 可 以 结合 字典 型 对 象 
实现 对 部 分 轴 标 签 的 更 新 : 


In [150]: data.rename(index={'OHIO': 'INDIANA'}, 


ei columns={'three': 'peekaboo'}) 
Out[150]: 
one two peekaboo four 
INDIANA 0 1 2 3 
COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


rename 帮 我 们 实现 了 : 复制 DataFrame 并 对 其 
索引 和 列 标 签 进行 赋值 。 如 果 希 户 整 地 修改 某 个 
数据 集 ， 传 入 inplace=True 即 可 : 


# 尽 和 定 芭 回 DataFrameb 的 5 
In [151]: _ = data.rename(index={'OHIO': 'INDIANA'}, 
inplace=True) 


In [152]: data 
Out[152] : 

one two three four 
INDIANA 0 1 2 3 


COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


离散 化 和 面 元 划分 


为 了 便于 分 析 ， 连 续 数 据 单 单 修 离 散 化 或 拆 
分 为 “ 面 元 ”(bin) 。 假 设 有 一 组 人 员 数 据 ， 而 你 
布 望 将 它们 划分 为 不 同 的 年 龄 组 : 


In [153]: ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 
41，32] 


接 下 来 将 这 些 数 据 划 分 为 “18 到 25”、\`“26 到 | 
35”、“35 人 到 60” 以 及 “60 以 上 ” 几 个 面 元 。 要 实现 该 
功能 ， 你 需要 使 用 pandas 的 cut 函 数 : 


In [154]: bins = [18, 25, 35, 60, 100] 
In [155]: cats = pd.cut(ages, bins) 


In [156]: cats 

Out[156]: 

Categorical: 

array([(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], 
(18, 25], 

(35, 60], (25, 35], (60, 100], (35, 60], (35, 60], 

(25, 35]], dtype=object) 

Levels (4): Index([(18, 25], (25, 35], (35, 60], (60, 
100]], dtype=object) 


pandas 返 回 的 是 一 个 特殊 的 Categorical 对 和 象 。 
你 可 以 将 其 看 做 一 组 表示 面 元 名 称 的 字符 串 。 实 


际 上 ， 它 舍 有 一 个 表示 不 同 分 类 名 称 的 levels 数 组 
以 及 一 个 为 年 龄 数据 进行 标号 的 labels 属 性 : 


In [157]: cats.1labels 
out[157]: array([0, 0, 9, 1, 0, 0, 2, 1, 3, 2, 2, 1]) 


In [158]: cats.levels 
Out[158]: Index([(18, 25], (25, 35], (35, 60], (690, 100]], 
dtype=object) 


In [159]: pd.value counts(cats) 
Out[159 ] : 

(18，25] 5 

(35, 60] 3 

(25, 35] 3 

(60, 100] 1 


跟 “ 区 间 ” 的 数学 符号 一 样 ， 圆 括号 表示 开 
端 ， 而 方 括号 则 表示 闭 端 《包括 ) 。 哪 边 是 财 端 
可 以 通过 right=Falsej 进 行 修 改 : 


In [160]: pd.cut(ages, [18, 26, 36, 61, 100], right=False) 

Out[160]: 

Categorical: 

array([[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), 
[18, 26), 

[36, 61), [26, 36), [61, 100), [36, 61), [36, 61), 

[26, 36)], dtype=object) 

Levels (4): Index([[18, 26), [26, 36), [36, 61), [61, 
100)], dtype=object) 


你 也 可 以 设置 目 己 的 面 元 名 称 ， 将 labels 选 项 
衣 置 为 一 个 列表 或 效 组 即 可 


In [161]: group_names = ['Youth', 'YoungAdult', 
'MiddleAged', 'Senior'] 


In [162]: pd.cut(ages, bins, labels=group_names) 

Out[162]: 

Categorical: 

array([Youth, Youth, Youth, YoungAdult, Youth, Youth, 
MiddleAged, 

YoungAdult, Senior, MiddleAged, MiddleAged, 

YoungAdult], dtype=object) 

Levels (4): Index([Youth, YoungAdult, MiddleAged, Senior], 
dtype=object) 


如 来 同 cut 传 入 的 是 面 元 的 数量 而 不 古 确 切 的 
面 元 边 窜 ， 则 它 会 根据 数据 的 最 小 值 和 最 大 值 计 
算 等 长 面 元 。 下 面 这 个 例子 中 ， 我 们 将 一 些 均匀 
分 布 的 数据 分 成 四 组 : 


In [163]: data = np.random.rand(20) 


In [164]: pd.cut(data, 4, precision=2) 
Out[1641]: 
Categorical: 
array([(0.45, 0.67], (0.23, 0.45], (0.0037, 0.23], (0.45, 
0.67], 
(0.67, 0.9], (0.45, 0.67], (0.67, 0.9], (0.23, 0.45], 
(0.23, 0.45], 
(0.67, 0.9], (0.67, 0.9], (0.67, 0.9], (0.23, 0.45], 
(0.23, 0.45], 
(0.23, 0.45], (0.67, 0.9], (0.0037, 0.23], (0.0037, 
0.23], 
(0.23, 0.45], (0.23, 0.45]], dtype=object) 
Levels (4): Index([(0.0037, 0.23], (0.23, 0.45], (0.45, 
0.67], 
(0.67, 0.9]], dtype=object) 


dcut 是 一 个 非 钊 类 似 于 cut 风 函数 ， 它 可 以 根 
据 样 本 分 位 数 对 数据 进行 面 元 划分 。 根 据 数 据 的 
分 布 情况 ，cut 可 能 无 法 使 各 个 面 元 中 含有 相同 数 


量 的 数据 点 。 而 qcut 由 于 使 用 的 是 样本 分 位 数 ， 
因此 可 以 得 到 大 小 基本 相等 的 面 元 


In [165]: data = np.random.randn(1000) # 下 态 分 布 


In [166]: cats = pd.qcut(data，4) # 按 四 分 位 数 进行 切割 


In [167]: cats 

Out[167]: 

Categorical: 

array([(-0.022, 0.641], [-3.745, -0.635], (0.641, 3.26], 

(-0.635, -0.022], (0.641, 3.26], (-0.635, -0.022]], 

dtype=object) 

Levels (4): Index([[-3.745, -0.635], (-0.635, -0.022], 
(-0.022, 0.641], 

(0.641, 3.26]], dtype=object) 


In [168]: pd.value counts(cats) 


Out[168]: 

[-3.745, -0.635] 250 
(0.641, 3.26] 250 
(-0.635, -0.022] 250 
(-0.022, 0.641] 250 


跟 cut 一 样 ， 也 可 以 设置 自 定 义 的 分 位 数 (0 
到 1 之 间 的 数值 ， 包 含 端点 ) 


In [169]: pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.1]) 

Out[169 ] : 

Categorical: 

array([(-0.022, 1.302], (-1.266, -0.022], (-0.022, 1.302], 

(-1.266, -0.022], (-0.022, 1.302], (-1.266, -0.022]], 

dtype=object) 

Levels (4): Index([[-3.745, -1.266], (-1.266, -0.022], 
(-0.022, 1.302], 

(1.302, 3.26]], dtype=object) 


本 章 稍 后 在 讲解 


x 人 
聚合 


和 分 组 运算 时 会 再 次 用 


到 cut 和 qcut， 因 为 这 两 个 离 秦 化 芳 数 对 分 量 和 分 
组 分 析 非 常 重 要 。 


今 测 和 过 滤 异 弟 值 
异常 值 :6 (outlier) 的 过 滤 或 变换 运算 在 


很 大 程度 上 其 实 束 是 数组 运算 。 来 看 一 个 含有 正 
仿 分 布 数 据 的 DataFrame: 


In [170]: np.random.seed(12345) 


In [171]: data = DataFrame(np.random.randn(1000, 4)) 


In [172]: data.describe() 


Out[172]: 
0 

count 1000.000000 1000. 
mean -0.067684 0. 
std 0.998035 0. 
min -3.428254 -3 
25% -0.774890 -0. 
50% -0.116401 0. 
75% 0.616366 0. 
max 3.366626 2. 


1 
000000 
067924 
992106 
548824 
591841 
101143 
780282 
653656 


2 


,000000 


025598 
006835 
184377 
641675 
002073 
680391 
260383 


100 


1 1 1 
WOOOWO0O 


0. 


3 
000000 


.002298 
.996794 
.745356 
,644144 
,013611 


654328 
927528 


假设 你 想 要 找 出 某 列 中 绝对 值 大 小 超过 3 的 


值 : 


In [173]: 


In [174]: 
Out[174]: 


col = datal[3] 


col[np.abs(col) > 3] 


97 3.927528 
305 -3.399312 


400 


Name : 


要 选 出 全 部 含有 “超过 3 或 一 3 的 值 ?的 行 ， 你 


可 以 利用 布尔 型 DataFrame 以 及 any 方 法 : 


-3.745356 


3 


In [175]: data[(np,abs(data) > 3).any(1)] 
Out[175]: 


5 
97 
102 
305 
324 
400 
499 
523 
586 
808 
900 


-0 
-0 


-0， 
2 


.539741 
.774363 
655054 - 
315555 
.050188 
.146326 


0 1 
.476985 
.552936 
.565230 


,951312 


,457246 - 


2 
3.248944 
0.106061 
3.176873 
0.025907 
3.260383 


.508391 -0.196713 


,293333 -0.242459 -3.056990 
,428254 -0.296336 -0.439938 
.275144 1.179227 -3.184377 
.362528 -3.548824 
.366626 -2.372214 


1.553205 
0.851010 


3 


,021228 
,927528 
,959533 
.399312 
.963301 
.745356 
.918403 
.867165 
.369891 
.186301 
.332846 


根据 这 些 条 件 ， 即 可 轻松 地 对 值 进 行 设置 。 
下 面 的 代码 可 以 将 值 限 制 在 区 间 一 3 到 3 以 内 : 


In [176]: datalnp.abs(data) > 3] 


In [177]: data.describe() 


Out[177]: 

count 1000 
mean -0 
std 0 
min -3,， 
25% -0， 
50% -0， 
75% 0 
max 3 


0 
,000000 1000. 
.©067623 0 ， 
,995485 0 ， 
000000 -3., 
774890 -0. 
116401 0 ， 
,616366 0 ， 
,000000 和 2 


1 
000000 
068473 
990253 
000000 
591841 
101143 
780282 
653656 


= np.sign(data) * 3 


2 
,000000 
.025153 
.003977 
,000000 
,641675 
,002073 
.680391 
,000000 


3 


,000000 
,002081 
,989736 
,000000 
,644144 
,013611 
,654328 
,000000 


np.sign 这 个 ufunc 返 回 的 是 一 个 由 1 和 一 1 组 成 
的 数组 ， 表 示 原 始 值 的 符号 。 


排列 和 随机 采样 


利用 numpyrandom.permutation 函 数 可 以 轻松 
实现 对 Series 或 DataFrame 的 ] 和 | 的 排列 工作 
(permuting, 随机 重 排序 于 二 7) 。 通 过 需要 排列 
的 轴 的 长 度 调 用 permutation， 可 产生 一 个 表示 新 
顺序 的 整 效 效 组 : 


In [178]: df = DataFrame(np.arange(5 * 4).reshape(5, 4)) 
In [179]: sampler = np.random.permutation(5) 


In [180]: sampler 
Out[180]: array([1, 0, 2, 3, 4]) 


然后 就 可 以 在 基于 这 的 索引 操作 或 take 范 数 中 
是 


In [181]: df 
out [181]: 


0 
工 4 5 6 7 
2 
3 


4 16 17 18 19 

In [182]: df.take(sampler) 

Out[182]: 
0 


2 8 


9 10 11 


3 12 13 14 15 
4 16 17 18 19 


如 果 不 想 用 替换 的 方式 选取 随机 子 集 ， 则 可 
以 使 用 pe 从 permutation 运 回 的 数组 中 
切 下 前 k 个 元 素 ， 其 中 k 为 期 望 的 子 集 大 小 。 虽 然 
有 很 多 高 效 的 算法 可 以 实现 非 替 换 式 采 采样 ， 但 坪 
手边 束 有 的 工具 为 什么 不 用 呢 ? 


In [183]: 
Out[183]: 


0 
1 4 


df.take(np.random.permutation(len(df))[:3]) 


2 3 
6 7 


3 12 13 14 15 
4 16 17 18 19 


要 通过 楼 换 的 方式 产生 样本 ， 最 快 的 方式 是 
通过 np.random.randint 得 到 一 组 随机 整数 : 


In [184]: 
In [185] : 


In [186]: 
Out[186]: 


In [187]: 


In [188]: 
Out[188]: 


bag = np.array([5, 7, -1, 6, 4]) 
sampler = np.random.randint(0, len(bag), size=10) 


sampler 
array([4, 4, 2, 2, 2, 0, 3, 0, 4, 1]) 


draws = bag.take(sampler) 


draws 
array([ 4, 4, -1, -1, -1, 5, 6, 5, 4, 7]) 


计算 指标 / 呈 变 量 


男 一 种 常用 于 统计 建 模 或 机 絮 学 习 的 转换 方 
式 是 : 将 分 类 变量 (categorical variable) 转换 
为 “ 呈 变 量 和 矩阵 ”(dummy matrix) 或 “指标 算 
了 车 ” (indicator matrix) 。 如果 DataFrame 的 某 一 列 
中 售 有 k 个 不 同 的 值 ， 则 可 以 派生 出 一 个 k 列 矩阵 
或 DataFrame (其 值 全 为 1 和 0) 。pandas 有 一 个 
get_dummies 函 数 可 以 实现 该 功能 〈 其 实 自己 动手 
做 一 个 也 不 难 ) 。 拿 之 前 的 一 个 例子 来 说 : 
In [189]: df = DataFrame({"key': [bb ar cr ar 
? a "datal': range(6)}) 
In [190]: pd.get_dummies(df['key']) 


Out[190]: 
a b 


OROODNOPO 
OPOPOO 
POOOPP 
OOPOOOO0N 


有 时 候 ， 你 可 能 想 给 指标 DataFrame 的 列 加 上 
一 个 前 弘 ， 以 便 能 够 跟 其 他 数据 进行 合并 。 
get_dummies 的 prefix 参 数 可 以 实现 该 功能 : 


In [191]: dummies = pd.get_dummies(df['Kkey']，prefix='key ') 
In [192]: df _ with_dummy = df[['data1i']].join(dummies) 


In [193]: df_with_dummy 
Out[193]: 

data1i key a key_b key_c 
0 0 0 1 0 


OPODP 
OPODP 
OPOPO 
POOOP 
©OOPOO 


如 采 DataFrame 中 的 未 行 同 属于 多 个 分 关 ， 出 
事情 驶 会 有 氮 复杂 ° 回 到 本 书 前 面 那 个 MovieLens 
1M 数 据 集 上 : 说 往 8 


In [194]: mnames = ['movie id', 'title', 'genres'] 


In [195]: movies = 

pd.read_ table('ch02/movielens/movies.dat', sep="::'", 

header=None, 
.: names=mnames ) 


In [196]: movies[ :10] 


Out[196]: 

movie_id title 
genres 
0 1 Toy Story (1995) 
Animation|Children's|Comedy 
1 2 Juman]ji (1995) 
Adventure|Children's|Fantasy 
2 3 Grumpier Old Men (1995 ) 
Comedy |Romance 
3 4 waiting to Exhale (1995) 
Comedy |Drama 
4 5 Father of the Bride Part II (1995) 
Comedy 
5 6 Heat (1995) 
Action|Crime|Thriller 
6 7 Sabrina (1995) 
Comedy |Romance 
7 8 Tom and Huck (1995) 
Adventure|Children's 
8 9 Sudden Death (1995) 
Action 
9 10 GoldenEye (1995) 


Action|Adventure|Thriller 


要 为 每 个 genre 添 加 指标 变量 承 需 要 做 一 些 数 
据 规 整 控 作 。 首 先 ， 我 们 从 数据 集中 抽取 出 不 同 
的 genre 值 (注意 巧 用 set.union) 


In [197]: genre iter = (set(x.split('|')) for x in 
movies.genres ) 


In [198]: genres = sorted(set.union(*genre_iter)) 


现在 ， 我 们 从 一 个 全 零 DataFrame 开 始 构 建 指 
标 DataFrame: 


In [199]: dummies = DataFrame(np.zeros((len(movies), 
len(genres))), columns=genres) 


接 下 来 ， 运 代 每 一 部 电影 并 将 dummies 各 行 
的 项 设置 为 1: 


In [200]: for i, gen in enumerate(movies.genres): 
A dummies.ix[i, gen.split('|')] = 1 


然后 ， 再 将 其 与 movies 合 并 起 来 : 


In [201]: movies windic = 
movies.join(dummies.add_prefix('Genre_')) 


In [202]: movies windic.ix[0] 


Out[202]: 

movie_id 1 
title Toy Story (1995) 
genres Animation|Children's|Comedy 
Genre_Action 0 
Genre_Adventure 0 
Genre_Animation 1 
Genre_Children's 1 


Genre_Comedy 
Genre_Crime 
Genre_Documentary 
Genre_Drama 
Genre_Fantasy 
Genre_Film-Noir 
Genre_Horror 
Genre_ Musical 
Genre_ Mystery 
Genre_ Romance 
Genre_Sci-Fi 
Genre_Thriller 
Genre_ War 
Genre_Western 
Name: 0 


注意 : 对 于 很 大 的 数据 ， 用 这 种 方式 构建 多 
成 员 指 标 变量 融会 变 得 非 负 慢 。 肯 定 需要 编写 一 
个 能 够 利用 DataFrame 内 部 机 制 的 更 低级 的 函数 才 
行 。 

一 个 对 统计 应 用 有 用 的 秘诀 是 : 结合 
get_dummies 和 诸如 cut 之 类 的 离散 化 函数 。 


In [204]: values = np.random.rand(10) 


OOOOOOOOOOOOOoOPF 


In [205]: values 
Out[205]: 
array([ 0.9296, 0.3164, 0.1839, 0.2046, 0.5677, 0.5955, 
0.9645 ， 
0.6532, 0.7489, 0.6536]) 


In [206]: bins = [0, 0.2, 0.4, 0.6, 0.8, 1] 


In [207]: pd.get_dummies(pd.cut(values, bins)) 
Out[207]: 

(0, 0.2] (0.2, 0.4] (0.4, 0.6] (0.6, 0.8] (0.8, 1] 
0 0 0 0 0 
1 0 1 0 0 0 


oo ~IOO 上 wm 
OOOOOOoOoPc 
OOOOoOoPO 
©OOOOPAPPOO 
PRPROOOO0OO 
©OOOPAOOOO 


译 福 8 原文 这 重 的 意思 很 有 问题 ， 原文 说 的 
征 “ 返 回 duplicated 为 True 的 DataFrame”， 实 际 上 > 
该 是 删除 了 duplicated 为 True 的 那些 行 ， 因 此 最 终 
得 到 的 DataFrame 有 的 duplicated 不 可 外 攻守 舍 含有 i 
TT 

译注 6: 也 叫 孤立 点 或 离 群 值 。 

译注 7: 也 就 是 中 学 学 的 那个 排列 ， 只 不 过 不 是 算 
出 所 有 排列 ， 而 是 其 中 之 一 。 

译注 8: 这 个 数据 集 不 在 ch07 中 ， 而 在 ch02 里 面 。 


子 从 串 控 作 


Python 能 够 成 为 流行 的 数据 处 理 语言 ， 部 分 
原因 生 其 傈 单 易 用 的 字符 串 和 文本 处 理 功能 。 大 
部 分 文本 运算 都 直接 做 成 了 字符 串 对 象 的 内 置 方 
法 。 对 于 更 为 复杂 的 模式 匹配 和 文本 操作 ， 则 可 
能 需要 用 到 正则 表达 式 。pandas 对 此 进行 了 加 强 ， 
它 使 你 能 够 对 整 组 数据 应 用 子 符 串 表 达 式 和 正则 
表达 式 ， 而 且 能 处 理 烦 人 的 缺失 数据 。 


字符 串 对 象 方法 


对 于 六 部 分 字符 串 处 理应 用 而 言 ， 内 症 的 字 
符 纠 方法 已 经 能 够 满足 要 求 了 。 例 如 ， 以 去 号 分 
隔 的 字符 串 可 以 用 split 拆 分 成 数 段 : 
In [208]: val = 'a,b, guido' 
In [209]: val.split(',') 
Out[209]: ['a', 'b', ' guido'] 
” ”split 第 第 结 合 strip (用 于 修剪 空 日 符 (包括 换 
行 待 ) ) 一 起 使 用 : 


In [210]: pieces = [x.strip() for x in val.split(',')] 


In [211]: pieces 
Out[211]: ['a', 'b', 'guido'] 


利用 加 法 ， 可 以 将 这 些 子 字符 串 以 双 册 号 分 
隔 符 的 形式 连接 起 来 : 证 


In [212]: first, second, third = pieces 


In [213]: first + '::' + Second + '::' + third 
Out[213]: 'a::b::guido' 


但 这 种 方式 并 不 是 很 实用 。 一 种 更 快 更 符合 
Python 风 格 的 方式 是 ， 问 字符 串 "::" 的 join 方 法 传 入 
一 个 列表 或 元 组 : 


In [214]: '::' .join(pieces ) 
Out[214]: 'a::b::guido' 


刃 一 类 方法 关注 的 古 子 串 定位 。 检 测 子 捉 的 


最 住 方式 是 利用 Python 的 in 关 键 字 (当然 还 可 以 使 
用 index 和 find) : 


In [215]: 'guido' in val 
Out[215]: True 


In [216]: val.index(',') 
Out[216]: 1 

In [217]: val.find(':') 
Out[217]: -1 


注意 find 和 index 的 区 别 : 如 果 找 不 到 字符 
串 ，index 将 会 引发 一 个 异常 (而 不 是 返回 一 1) : 


In [218]: val.index(':') 


ValueError Traceback (most 


recent call last) 
<ipython-input-218-280f8b2856ce> in <module>() 
----> 1 val.index(':') 

ValueError: substring not found 


此 外 还 有 一 个 count 函 数 ， 它 可 以 返回 指定 子 
串 的 出 现 次 数 : 


In [219]: val.count(',') 
Out[219]: 2 


replace 用 于 将 指 是 模式 荐 换 为 为 一 个 模式 。 
它 也 第 着 用 于 删除 模式 : 传 入 空 字符 串 。 
In [220]: val.replace(',', '::') 
Out[220]: 'a::b:: guido' 
In [221]: val.replace(',', '') 
Out[221]: "ab guido' 
这 些 运算 大 部 分 部 能 使 用 正则 表达 式 实现 
(马上 就 会 看 到 ) 。 


Python 内 管 的 字符 串 方 法 如 表 7-3 所 示 。 


表 7-3: Python 内 置 的 字符 串 方法 
方法 说 明 


count 返回 子 串 在 字符 串 中 的 出 现 次 数 ( 非 重 又 ) 
endswith 、startswith ”如 果 字 符 捉 以 某 个 后 缀 结 tit 3 


join 将 字符 串 用 作 连 接 其 他 字符 串 序 列 的 分 隔 


index 如 果 在 字符 串 中 找到 子 串 ， 则 返回 子 串 第 一 


置 。 如 果 没 有 找到 ， 则 引发 ValueError。 


find 如 果 和 在 字符 串 中 找到 子 串 ， 则 返回 第 一 
字符 所 在 的 位 置 。 如 果 没 有 找到 ， 则 返 


个 发 现 的 子 捉 的 第 一 个 


rfind 如 果 在 字符 串 中 找到 子 串 ， 则 返回 最 后 一 个 发 现 的 子 串 的 第 一 


个 字符 所 在 的 位 置 。 如 果 没 有 找到 ， 则 返 
replace 用 另 一 个 字符 串 替 换 指定 子 串 


表 7-3: Python 内 置 的 字符 串 方法 ( 续 ) 
方法 说 明 


strip、rstrip 、lstrip ”去 除 空白 符 (包括 换行 符 ) 。 相 当 于 对 各 个 元 素 执 行 x.strip() 


(以 及 rstrip、lstrip) 。 评注 10 


split 通过 指定 的 分 隔 符 将 字符 串 拆 分 为 一 组 子 串 

lower、upper 分 别 将 字母 字符 转换 为 小 写 或 大 写 

ljust、 rjust 用 空格 (或 其 他 字符 ) 填充 字符 串 的 空白 侧 以 
度 的 字符 串 


译注 10: 这 里 的 说 法 有 误 。 字 竺 哩 的 各 个 元 
系 不 驳 是 字符 吗 ? 这 里 不 定 天 量化 的 ， 当 涉及 
pandas 中 的 这 儿 个 函数 的 天 量 版 时 才 应 该 加 上 后 面 


这 颁 。 


正则 表达 去 


正则 表达 式 (通常 称 作 regex) 提供 了 一 种 灵 
活 的 在 文本 中 搜索 或 匹配 字符 申 檬 式 的 方式 。 正 
则 表达 式 古 根据 正则 表达 式 语 言 编写 的 字符 串 。 
Python 内 置 的 re 模块 负责 对 字符 串 应 用 正则 表达 
式 。 我 将 通过 一 些 例 子 说 明 其 使 用 方法 。 


注意 :正则 表达 式 的 编写 技巧 可 以 自 成 一 章 

1 ， 因 此 超出 了 本 书 的 范围 。 网 上 可 以 找到 许 

多 非常 不 第 的 教程 和 参考 和 质料， 比如 Zed Shaw 的 
《Learn Regex The Hard Way) 
(http://regex.learncodethehardway.org/book/) 


re 模块 的 函数 可 以 分 为 三 个 大 类 : 模式 匹配 、 
蕉 换 以 及 拆 分 。 当 然 ， 它 们 之 间 是 相辅相成 的 。 
一 个 regex 接 述 了 需要 在 文本 中 定位 的 一 个 模式 ， 
它 可 以 用 于 许多 目的 。 我 们 先 来 看 一 个 合 蛙 的 例 
了 于: 假设 我 想 要 拆 分 一 个 字符 串 ， 分 隅 符 为 数量 
不 定 的 一 组 空白 符 ( 制 表 符 、 空 格 、 换 行 符 
等 ) 。 摘 述 一 个 或 多 个 空白 从 的 regex 是 \st+: 
In [222]: import re 
In [223]: text = "foo bar\t baz \tqux" 
In [224]: re.split('\s+', text) 
Out[224]: ['foo', 'bar', 'baz', 'gux'] 
调用 re.split(\s+',text) 上 时， 正则 表达 式 会 先 航 编 
译 ， 然 后 再 在 text 上 调用 其 split 方 法 。 你 可 以 用 


re.Compile 目 己 编译 regex 以 得 到 一 个 可 重用 的 regex 
对 象 : 


In [225]: regex = re.compile('\s+') 


In [226]: regex.split(text) 
Out[226]: ['foo', 'bar', 'baz', 'gux'] 


如 果 只 希望 得 到 匹配 regex 的 所 有 模式 ， 则 可 
以 使 用 findall 方 法 : 


In [227]: regex. Bw 
Out[227]: [!' \t'] 


注意 : ”如 果 想 避免 正则 表达 式 中 不 需要 的 转 
义 W ， 则 可 以 使 用 原始 字符 串 字 面 量 如 
PC:X (也 可 以 编写 其 等 价 式 'C:\\x') 


如 有 果 打 算 对 许多 字符 串 应 用 同一 条 正则 表达 
式 ， 强 烈 建议 通过 re.compile 创 建 regex 对 象 。 这 样 
将 可 以 市 省 大 量 的 CPU 时 间 。 


match 和 search 跟 findall 功 能 类 似 。findall 返 回 
的 是 字符 串 中 所 有 的 匹配 项 ， 而 search 则 只 返回 第 
一 个 匹配 项 。match 更 加 严格 ， 它 只 匹配 字符 串 的 
首部 。 来 看 一 个 小 例子 ， 假 设 我 们 有 一 段 文本 以 
Cc 一 条 能 够 识别 大 部 分 电子 邮件 地 址 的 正则 表达 
I\: 


text = """Dave dave@google.com 
Steve steve@gmail.com 

Rob rob@gmail.com 

Ryan ryan@yahoo.com 


pattern = r'[A-2Z0-9. %+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}' 


# re ,IGNORECASE 的 作用 是 使 正则 表达 式 对 大 小 写 不 敏感 
regex = re.compile(pattern, flags=re.IGNORECASE) 


对 text 使 用 findall 将 得 到 一 组 电子 邮件 地 址 : 


In [229]: regex.findall(text) 
Out[229]: ['dave@google.com', 'steve@gmail.com', 
'rob@gmail.com', 'ryan@yahoo.com'] 


search 退 回 的 是 文本 中 第 一 个 电子 邮件 地 址 
(以 特殊 的 匹配 项 对 象形 式 返 回 ) 。 对 于 上 面 那 
个 regex， 匹 配 项 对 象 只 能 告诉 我 们 模式 在 原 字 人 符 
串 中 的 起 始 和 结束 位 置 : 


In [230]: m = regex.search(text) 


In [231]: m 
Out[231]: <_sre.SRE Match at 0Xx10a05de00> 


In [232]: text[m.start():m.end()] 
Out[232]: 'dave@google.com' 


regex.match 则 将 返回 None， 因 为 它 只 匹配 出 
现在 字符 串 开 头 的 模式 : 


In [233]: print regex.match(text) 
None 


为 外 还 有 一 个 sub 方 法 ， 它 会 将 匹配 到 的 模式 
登 换 为 指定 字符 串 ， 并 返回 所 得 到 的 狐 字 符 串 : 
In [234]: print regex.sub('REDACTED', text) 
Dave REDACTED 
Steve REDACTED 


Rob REDACTED 
Ryan REDACTED 


假设 你 不 仅 想 要 找 出 电子 邮件 地 址 ， 还 想 将 
各 个 地 址 分 成 3 个 部 分 : 用 户 名 、 域 名 以 及 域 后 
级 。 要 实现 此 功能 ， 只 需 将 每 分 段 的 模式 的 各 部 
分 用 圆 括号 包 起 来 即 可 : 

In T2351 pattorn = TU[A-Z0-9WFTTJGUTAZO-9 -J (TA-Z2] 
{2,4})" 


In [236]: regex = re.compile(pattern, flags=re.IGNORECASE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 ， 可 
0 
| 


. 
Dar . 


In [237]: m = regex.match(' wesmQobright.net ) 


In [238]: m.groups() 
Out[238]: ('wesm', 'bright', 'net') 


”对 于 高 有 分 组 功能 的 模式 ，findall 会 返回 一 个 
元 组 列表 : 
In [239]: regex.findall(text) 


Out[239]: 
[('dave', 'google', 'com'), 


('steve', 'gmail', 'com'), 
('rob', 'gmail', 'com'), 
('ryan', 'yahoo', 'com')] 


sub 还 能 通过 诸如 \1、\2 之 类 的 特殊 符号 访问 
各 匹配 项 中 的 分 组 : 
In [240]: print regex.sub(r'Username: \1, Domain: \2, Suffix: 
\3', text) 
Dave Username: dave, Domain: google, Suffix: com 
Steve Username: steve, Domain: gmail, Suffix: com 


Rob Username: rob, Domain: gmail, Suffix: com 
Ryan Username: ryan, Domain: yahoo, Suffix: com 


Python 中 还 有 许多 的 正则 表达 式 ， 但 大 部 分 
都 超出 了 本 书 的 范围 。 为 了 给 你 一 点 感觉， 我 对 
上 面 那 个 电子 邮件 正则 表达 式 做 一 点 小 变动 :为 
各 个 匹配 分 组 加 上 一 个 名 称 。 


regex = re.compile(r™""" 
(?P<username>[A-2Z0-9. %+-]+) 


@ 
(?P<domain>[A-Z0-9.-]+) 
\ 


(2?P<suffix>[A-Z]{2,4})""", 
flags=re.IGNORECASE | re .VERBOSE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 可 以 
得 到 一 个 们 早 易 用 的 市 有 分 组 名 称 的 字典 : 
In [242]: m = regex.match('wesm@bright.net') 
In [243]: m.groupdict() 


Out[243]: {'domain': 'bright', 'suffix': 'net', 'username': 
'wesm'} 


前 面 所 及 的 正则 表达 式 的 方法 与 说 明 如 表 7-4 


所 示 。 


表 7-4: 正则 表达 式 方法 


方法 


findall、 finditer 


match 


search 


split 


sub、subn 


说 明 

返回 字符 串 中 所 有 的 非 重 亚 匹配 模式 。findall 返 回 的 是 由 所 有 模式 
组 成 的 列表 ， 而 finditer 则 通过 一 个 迭代 器 逐个 返回 

从 字符 串 起 始 位 置 匹 配 模式 ， 还 可 以 对 模式 各 部 分 进行 分 组 。 如 果 
匹配 到 模式 ， 则 返回 一 个 匹配 项 对 象 ， 否 则 返回 None 

扫描 整个 字符 串 以 匹配 模式 。 如 果 找 到 则 返回 一 个 匹配 项 对 象 。 跟 
match 不 同 ， 其 匹配 项 可 以 位 于 字符 串 的 任意 位 置 ， 而 不 仅仅 是 起 
台 处 

根据 找到 的 模式 将 字符 串 拆 分 为 数 段 


将 字符 串 中 所 有 的 (sub) 或 前 n 个 (subn) 模式 替换 为 指定 表达 
式 芷 二 2 。 在 替换 字符 串 中 可 以 通过 \1、\2 等 符号 表示 各 分 组 项 


详 证 12， 


效 返 回 值 。 


这 个 表达 却 要 人 么 生字 符 串 要 么 是 函 


pandas 中 天 量化 的 字符 串 函 数 


清理 待 


子 付 串 规整 化 工作 。 更 为 复 洒 的 悄 


分 析 的 散乱 数据 时 ， 于 


单 需要 做 一 些 
况 征 ，ff 


符 串 的 列 有 时 还 含有 揣 失 数据 : 


In [244]: data = {'Dave': 'dave@google.com', 'Steve ' : 


'steveQ@gmail.com', 


'Rob': 'rob@gmail.com', 'Wes': np.nan} 


In [245]: data = Series(data) 


In [246]: data 


Out[246]: 

Dave dave@google.com 
Rob rob@gmail.com 
Steve steveQ@gmail.com 
Wes NaN 
In [247]: data.isnull() 
Out[247]: 

Dave False 

Rob False 

Steve False 

Wes True 


通过 data.map， 有 所 有 了 字符 串 和 正则 表达 式 方 法 
都 能 被 应 用 于 ( 传 入 lambda 表 达 式 或 其 他 函数 ) 
各 个 值 ， 但 是 如 果 存 在 NA 就 会 报错 。 为 了 解决 这 
个 问题 ，Series 有 一 些 能 够 跳 过 NA 值 的 字符 串 探 
作 方 法 。 通 过 Series 的 str 属 性 即 可 访问 这 些 方 法 。 
例如 ， 我 们 可 以 通过 str.contains 检 查 各 个 电子 邮件 
地 址 是 否 舍 有 "gmail": 


In [248]: data.str.contains('gmail') 


Out[248]: 

Dave False 
Rob True 
Steve True 
Wes NaN 


这 里 也 可 以 使 用 正则 表达 式 ， 还 可 以 加 上 任 
意 re 选 项 (如 IGNORECASE) : 
In [249]: pattern 
Out[249]: '([A-Z0-9, %+-]+)@([A-Z0-9.-]+)\\.,([A-Z]{2,4})' 
In [250]: data.str.findall(pattern, flags=re.IGNORECASE) 


Out[250]: 
Dave [('dave', 'google', 'com')] 


Rob [('rob', 'gmail', "com')] 
Steve [('steve', 'gmail', "com')] 
Wes NaN 


有 两 个 办 法 可 以 实现 天 量化 的 元 素 获 取 操 
作 : 要 么 使 用 strget， 要 么 在 str 属 性 上 使 用 索引 。 


In [251]: matches = data.str.match(pattern, 
flLags=re,IGNORECASE ) 

In [252]: matches 

Out[252]: 

Dave ('dave', 'google', 'com') 
Rob ('rob', 'gmail', 'com') 
Steve ('steve', 'gmail', 'com') 
Wes NaN 
In [253]: matches.str.get(1) 
Out[253]: 

Dave google 

Rob gmail 

Steve gmail 

Wes NaN 

In [254]: matches.str[0] 

Out[254]: 

Dave dave 

Rob rob 

Steve steve 

Wes NaN 


本 你 可 以 利用 下 面 这 种 代码 对 字符 串 进 行 子 串 
本， 


In [255]: data.str[:5] 
Out[255] : 


Dave dave@ 
Rob rob@g 
Steve steve 


Wes 


NaN 


表 7-5 介 绍 了 矢量 化 的 字符 吕方 法 。 


表 7-5: 矢量 化 的 字符 串 方 法 


yD 大 
cat 
contains 


count 


endswith、 startswith 


findall 

get 

join 

len 
lower、upper 


match 


pad 
center 
repeat 
replace 
slice 


split 


strip、 rstrip、 lstrip 


说 明 

实现 元 素 级 的 字符 串 连 接 操作 ， 可 指定 分 隔 符 

返回 表示 各 字符 串 是 否 含 有 指定 模式 的 布尔 型 数组 
模式 的 出 现 次 数 

相当 于 对 各 个 元 素 执行 xendswith(pattern) 或 x.startswith(pattern) 
计算 各 字符 串 的 模式 列表 

获取 各 元 素 的 第 i 个 字符 

根据 指定 的 分 隔 符 将 Series 中 各 元 素 的 字符 串 连 接 起 来 
计算 各 字符 串 的 长 度 

转换 大 小 写 。 相 当 于 对 各 个 元 素 执行 x.lower() 或 x.upper() 
根据 指定 的 正则 表达 式 对 各 个 元 素 执 行 re.match 


在 字符 串 的 左边 、 右 边 或 左右 两 边 添加 空白 符 

相当 于 pad(side='both') 

重复 值 。 例 如 ，s.strrepeat(3) 相 当 于 对 各 个 字符 串 执 行 X* 3 
用 指定 字符 串 蔡 换 找到 的 模式 

对 Series 中 的 各 个 字符 串 进行 子 串 截取 

根据 分 隔 符 或 正则 表达 式 对 字符 串 进行 拆 分 

去 除 空白 符 ， 包 括 换行 符 。 相 当 于 对 各 个 元 素 执 行 x.strip()、 
x.rstrip()、x.lstrip() 


译注 9， 其 实 什 么 分 隔 符 都 行 ， 原 文 有 歧义 。 
译注 11: 别 说 一 章 ， 目 前 市 面 上 专门 介绍 正则 表 
达 式 的 书 非常 多 。 


示例 : USDA 食 品 数 据 库 


美国 农业 部 (USDA) 制作 了 一 份 有 天 食物 营 
养 信息 的 数据 库 。Ashley Williams (一 名 来 自 英国 
的 技术 牛人 ) 制作 了 该 数据 的 JSON 版 
(http://ashleyw.co.uk/project/food-nutrient- 


database) 。 其 中 的 记录 如 下 所 示 : 


"id": 21441， 

"description": "KENTUCKY FRIED CHICKEN, Fried Chicken, 
EXTRA CRISPY, Wing, meat and skin with breading", 

"tags": ["KFC"], 

"manufacturer": "Kentucky Fried Chicken", 

"group": "Fast Foods", 

"portions": [ 


"amount": 1, 


"unit": "wing, with skin", 
"grams": 68.0 


了 
"nutrients": [ 


"Value": 20.8, 


"UnItS' "g" 

了 
"description": "Protein", 
"group": "Composition" 


每 种 食物 都 市 有 者 干 标识 性 属性 以 及 两 个 有 
天 品 状 成 分 和 分 量 的 列表 。 这 种 形式 的 数据 不 古 
很 适合 分 析 工 作 ， 因 此 我 们 需要 做 一 些 规 整 化 以 
使 其 具有 更 好 用 的 形式 。 


从 上 面 列举 的 那个 网 址 下 载 并 解压 数据 之 
后 ， 你 可 以 用 任何 品 欢 的 JSON 库 将 其 加 载 到 
Python 中 。 我 用 的 是 Python 内 置 的 json 模 块 : 


In [256]: import json 


In [257]: db = json.load(open('ch07/foods-2011-10-03.json')) 


In [258]: len(db) 
Out[258]: 6636 


db 中 的 每 个 条 目 都 是 一 个 售 有 某 种 食物 全 部 
数据 的 字典 。nutrients 字 段 是 一 个 字典 列表 ， 其 中 
的 每 个 字典 对 应 一 种 营养 成 分 : 


In [259]: db[0].keys() 

Out[259]: 

[u'portions', 
u'description', 

Uu'tags', 
u'nutrients', 
u'group', 

u'id"', 
u'manufacturer'] 

In [260]: db[0]['nutrients'][0] 

Out[260]: 

{u'description': u'Protein', 
u'group': u'Composition', 
u'units': u'g', 

U' Value': 25.18} 


In [261]: nutrients = DataFrame(db[0]['nutrients ']) 


In [262]: nutrients[:7] 


Out[262] : 

description group units 
0 Protein Composition g 
1 Total lipid (fat) Composition g 
2 Carbohydrate, by difference Composition g 
3 Ash Other g 
4 Energy Energy kcal 
5 Water Composition g 
6 Energy Energy kJ 


在 将 字典 列表 转换 为 DataFrame 时 ， 可 以 只 抽 
取 其 中 的 一 部 分 字段 。 这 里 ， 我 们 将 取出 食物 的 


名 称 、 分 类 、 编 号 以 及 制造 商 等 信息 : 


In [263]: info_keys = ['description', 'group' 


'manufacturer'] 


， "1 


In [264]: info = DataFrame(db, columns=info_keys) 


In [265]: info[:5] 


Out[265]: 

description 
id manufacturer 
0 Cheese, caraway Dairy 
1008 
1 Cheese, cheddar Dairy 
1009 
2 Cheese, edam Dairy 
1018 
3 Cheese, feta Dairy 
1019 


4 Cheese, mozzarella, part skim milk Dairy 
1028 


In [266]: info 

Out[266]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 6636 entries, © to 6635 
Data columns: 


d '， 


Egg 
Egg 
Egg 
Egg 


Egg 


group 


Products 


Products 


Products 


Products 


Products 


description 6636 non-null values 


group 6636 non-null values 
id 6636 non-null values 
manufacturer 5195 non-null values 


dtypes: int64(1), object(3) 


通过 value_counts， 你 可 以 查看 食物 类 别 的 分 
布 情况 : 


In [267]: pd.value counts(info.group)[:10] 


Out[267]: 

Vegetables and Vegetable Products 812 
Beef Products 618 
Baked Products 496 
Breakfast Cereals 403 
Legumes and Legume Products 365 
Fast Foods 365 
Lamb, Veal, and Game Products 345 
Sweets 341 
Pork Products 328 
Fruits and Fruit Juices 328 


现在 ， 为 了 对 全 部 辕 养 数据 做 一 些 分 析 ， 最 
简单 的 办 法 是 将 所 有 食物 的 膏 养 成 分 整合 到 一 个 
大 表 中 。 我 们 分 几 个 步 又 来 实现 该 目的 。 首 先 ， 
将 各 食物 的 吾 养 成 分 列表 转换 为 一 个 DataFrame， 
并 添加 一 个 表示 编号 的 列 ， 然 后 将 该 DataFrame 湛 
加 到 一 个 列表 中 。 最 后 通过 concat 将 这 些 东 西 连 接 
起 来 束 可 以 了 : 


nutrients = [|] 


for rec in db: 
fnuts = DataFrame(rec['nutrients']) 
fnuts['id'] = rec['id'] 
nutrients.append(fnuts) 


nutrients = pd.concat(nutrients, ignore_index=True) 


如 有 果 一 切 顺 利 鸭 话 ，nutrients 必 该 是 下 面 这 样 


In [269]: nutrients 

Out[269]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 389355 entries, © to 389354 
Data columns: 


description 389355 non-null values 
group 389355 non-null values 
units 389355 non-null] values 
value 389355 non-null] values 
id 389355 non-null values 


dtypes: float64(1), int64(1), object(3) 


a 从 如 何者 会 有 有 一些 
所 以 直接 丢弃 束 可 以 了 : 


In [270]: nutrients.duplicated().sum() 
Out[270]: 14179 


In [271]: nutrients = nutrients.drop_duplicates() 


由 于 两 个 DataFrame 对 象 中 都 
有 0 所 以 为 了 明确 到 压 谁 是 
谁 ， 我 们 需要 对 它们 进行 重 命名 : 


In [272]: col mapping = {'description' : 'food', 
a group : "fgroup 


In [273]: info = info.rename(columns=col_mapping，copy=False) 


In [274]: info 
Out[274]: 


<class 'pandas .core.frame,DataFrame '> 
Int64Index: 6636 entries, © to 6635 
Data columns: 


food 6636 non-nul1 values 
fgroup 6636 non-null values 
id 6636 non-null values 
manufacturer 5195 nNon-null values 


dtypes: int64(1), object(3) 


In [275]: col mapping = {'description' : "nutrient '， 
a 'group' : 'nutgroup'} 


In [276]: nutrients = nutrients.rename(columns=col_mapping, 
copy=False) 


In [277]: nutrients 

Out[277]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 375176 entries, © to 389354 
Data columns: 


nutrient 375176 non-null values 
nutgroup 375176 non-null values 
units 375176 non-null values 
value 375176 non-null values 
id 375176 non-null values 


dtypes: float64(1), int64(1), object(3) 


做 完 这 些 事情 之 后 ， 束 可 以 将 info 跟 nutrients 
合并 起 来 : 


In [278]: ndata = pd.merge(nutrients，info，on='1d '， 
how= 'outer ') 


In [279]: ndata 

Out[279] : 

<class 'pandas .core.frame,DataFrame '> 
Int64Index: 375176 entries, © to 375175 
Data columns : 


nutrient 375176 non-null values 
nutgroup 375176 non-null values 
units 375176 non-null values 
value 375176 non-null values 


id 375176 non-null values 


food 375176 non-null values 
fgroup 375176 non-null values 
manufacturer 293054 non-null values 
dtypes: float64(1), int64(1), object(6) 
In [280]: ndata.ix[30000] 

Out[280]: 

nutrient Folic acid 
nutgroup Vitamins 
units mcg 
value 0 
Id 5658 
food Ostrich, top loin, cooked 
fgroup Poultry Products 
manufacturer 

Name 


: 30000 


接 下 来 的 两 章 中 将 介绍 切片 和 切 块 、 


涌 合 、 


图 形 化 方面 的 工具 ， 所 以 在 你 掌握 了 那些 方法 之 
后 可 以 绸 用 这 个 数据 集 来 练 练 手 。 比 如 说 ， 我 们 


可 以 根据 食物 分 类 和 营养 类 型 画 
(如 图 7-1 所 示 ) 


出 一 张 中 位 值 图 


Beef Products 

Lamb, Wa tb nd Game Products 
tap pa S080 Products 

ast Cereals 

5 and Herbs 

Roy BT 


Po 
Sausages and Lun Ee ents 


Snacks 

Dairy and Egg Pro cts 
Fast Foods 
号 Legumes and Legume Products 
2 Cereal Grains and Pasta 
Ey Ethnic Foods 
Restaurant Foods 
Finfish a Sh sh er odu 二 


Baked Produ 
Meals, Entrees, and 号 ge sh 
Foods 
et 
Vegetables and Vegetable Products 
soups, es and Gravies 


ruits and Fruit Juices 
Beverages 


9 
Fats and Oils 上 上- 
0 


图 7-1: 根据 各 养分 类 得 出 的 和 中 位 值 
In [281]: result = ndata.groupby(['nutrient', 'fgroup']) 
['value'].quantile(0.5) 


In [282]: result['Zinc, Zn'].order().plot(kind="'barh') 


只 要 稍微 动 一 动脑 于 ， 了 风 可 以 发 现 各 宫 养 成 
分 最 为 丰富 的 食物 是 什么 了 : 


ndata.groupby(['nutgroup', ‘'nutrient"']) 


by_nutrient 


get_maximum 
get_minimum 


lambda x: x.xs(x.value.idxmax()) 
lambda x: x.xs(x.value.idxmin()) 


max_foods = by_nutrient.apply(get_maximum)[['value', 'food']] 


# 让 food 小 一 点 
max_foods .food = max_foods.food.str[:50] 


由 于 得 到 的 DataFrame 很 大 ， 所 以 不 方便 在 书 
里 面 全 部 打印 出 来 。 这 里 只 给 出 "Amino Acids" 营 
养分 组 : 


In [284]: max_foods.ix['Amino Acids'][' food '] 

Out[284] : 

nutrient 

Alanine Gelatins, dry powder, 
unsweetened 

Arginine Seeds, sesame flour, 
low-fat 

Aspartic acid Soy protein 
isolate 

Cystine Seeds, cottonseed flour, low fat 
(glandless) 

Glutamic acid Soy protein 
isolate 

Glycine Gelatins, dry powder, 
unsweetened 

Histidine whale, beluga, meat, dried (Alaska 


Native) 
Hydroxyproline 
ORIGINAL R 
Isoleucine 
INTERNA 
Leucine 
INTERNA 
Lysine 
Nativ 
Methionine 
salted 
Phenylalanine 
INTERNA 
Proline 
unsweetened 
Serine 
INTERNA 
Threonine 
INTERNA 
Tryptophan 
Native) 
Tyrosine 
INTERNA 
Valine 
INTERNA 
Name: food 


KENTUCKY FRIED CHICKEN, Fried Chicken, 
Soy protein isolate, PROTEIN TECHNOLOGIES 
Soy protein isolate, PROTEIN TECHNOLOGIES 
Seal, bearded (Oogruk), meat, dried (Alaska 
Fish, cod, Atlantic, dried and 
Soy protein isolate, PROTEIN TECHNOLOGIES 
Gelatins, dry powder, 
Soy protein isolate, PROTEIN TECHNOLOGIES 
Soy protein isolate, PROTEIN TECHNOLOGIES 
Sea lion, Steller, meat with fat (Alaska 
Soy protein isolate, PROTEIN TECHNOLOGIES 


Soy protein isolate, PROTEIN TECHNOLOGIES 


第 8 草 ”绘图 和 可 视 化 


绘图 是 数据 分 析 工 作 中 最 重要 的 任务 之 一 ， 
尽 探索 过 程 的 一 部 分 ， 例 如 ， 和 帮助 我 们 找 出 异 般 
值 、 必 要 的 数据 转换 、 得 出 有 天 模型 的 idea 等 。 
此 外 ， 还 可 以 利用 诸如 d3.js (http://d3js.org/) 之 
类 的 工具 为 Web 应 用 构建 交互 式 图 像 。Python 有 
许多 可 视 化 工具 〈 参 见 本 草 末尾 ) ， 但 是 我 主要 
讲解 matplotlib 
(http://matplotlib.sourceforge.net) 。 


matplotlib 是 一 个 用 于 创建 出 版 质量 图 表 的 桌 

面 绘图 包 (主要 是 2D 方 面 ) 。 该 项 目 是 由 John 
Hunter 于 2002 年 启动 的 ， 其 目的 古 为 Python 构 建 
一 个 MATLAB 式 的 绘图 接口 。 从 那 时 起 ，John 
Hunter、Fernando Pérez (IPython 的 创始 人 ) 等 许 
多 人 人 束 一 起 合作 ， 共 同人 致力 于 将 IPython 和 
matplotlib 结 合 起 来 以 提供 一 种 功能 丰富 且 高 效 的 
科学 计算 环境 。 如 果 结 合 使 用 一 种 GUI 工 具 包 

(如 IPython) ，matplotlib 还 具有 诸如 缩放 和 平移 
等 交互 功能 。 它 不 仅 文 持 各 种 操作 系统 上 许多 不 
同 的 GUI 后 病 ， 而 且 还 能 将 图 片 寻 出 为 各 种 钊 见 
的 矢量 (vector) 和 光栅 (raster) 图 : PDF、 
SVG、JPG、PNG、BMP、GIF 等 。 本 书 中 的 大 部 
分 图 形 都 是 用 它 生 成 的 。 


matplotlib 不 有 许多 插件 工具 集 ， 如 用 于 3D 图 
形 的 mplot3d 以 及 用 于 地 图 和 投 景 er 我 
将 在 本 章 来 尾 介绍 一 个 利用 basemap 在 地 图 上 绘制 
数据 和 读 取 shapefiles 和 例子 。 


要 使 用 本 草 中 的 代码 示例 ， 请 确 你 你 的 
IPython 是 以 Pylab 模 式 启动 的 (ipython -- 
Es ， 或 通过 %gui 魔 木 命 令 打 开 了 GUI 事件 循 


matplotlib API 入 上] 


使 用 matplotlib 的 办 法 有 很 多 种 ， 最 常用 的 方 
式 是 Pylab 模 式 的 IPython (ipython --pylab) 。 这 样 
会 将 IPython 配 置 为 使 用 你 所 指定 的 matplotlib GUI 
后 端 (Tk、wxPython 、PyQt、Mac OS X native 、 
GTK) 。 对 大 部 分 用 户 而 言 ， 默 认 的 后 端 丈 已 经 
够 用 了 。Pylab 模 式 下 会 同 IPython 引 入 一 大 堆 模 块 
和 画 数 以 提供 一 种 更 接近 于 MATLAB 的 界面 ( 见 
图 8-1) 。 绘 制 一 张 答 单 的 图 表 即 可 测试 是 否 一 切 
准备 驶 绪 ; 


plot(np.arange(10)) 


SPY daily 


8 
10 am MY Eg 


20 


725 


8-1: 一 张 比较 复杂 的 matplotlib 金 融 曲 线 


如 果 一 切 都 没有 问题 ， 束 会 弹出 一 个 新 窗 
口 ， 其 中 绘制 的 是 一 条 直线 。 你 可 以 用 鼠标 或 输 
入 close0) 来 关闭 它 。matplotlib API 函 数 (如 plot 和 
close) 都 位 于 matplotlib.pyplot 模 块 中 ， 其 通常 的 
引入 约定 是 : 


Import matplotlib.pyplot as pilit 


虽然 pandas 的 绘图 函数 〈 稍 后 介绍 ) 能 够 处 理 
许多 普通 的 绘图 任务 ， 但 如 采 需 要 目 定 义 一 些 高 
级 功能 的 话 吏 必 须 学 习 matplotlib API。 


注意 : ”虽然 本 书 没 有 详细 地 讨论 matplotlib 的 
各 种 功能 ， 但 足以 将 你 引入 中 " matplotlib 的 示例 
库 和 文档 是 成 为 绘图 高 手 的 最 佳 学 习 资 源 。 


Figure 和 Subplot 
matplotlib 的 图 像 都 位 于 Figure 对 象 中 。 你 可 以 
用 plt.figure 创 建 一 个 新 的 Figure: 
In [13]: fig = plt.figure() 
这 时 会 弹出 一 个 空 窗 口 。plt.figure 有 一 些 选 
项 ， 特 别 是 figsize， 它 用 于 确保 当 图 片 保 存 到 磁盘 


时 具有 一 定 的 大 小 和 纵横 比 。matplotlib 中 的 Figure 
还 文 持 一 种 MATLAB 式 的 编号 架构 (例如 


plt.figure(2)) 。 通 过 plt.gcfO 即 可 得 到 当前 Figure 的 
引用 。 


不 能 通过 空 Figure 绘 图 。 必 须 用 add_subplot 创 
建 一 个 或 多 个 subplot 才 行 : 


In [14]: ax1 = fig.add_subplot(2, 2, 1) 


这 条 代码 的 意思 是 : 图 像 应 该 是 2x2 的 ， 且 当 
前 选中 的 是 4 个 subplot 中 的 第 一 个 (编号 从 1 开 
始 ) ,如 果 再 把 局 面 两 个 subplot 也 他 建 训 来 最 
终 得 到 的 图 像 如 图 8-2 所 示 。 


In [15]: ax2 = fig.add_subplot(2, 2, 2) 


In [16]: ax3 = fig.add_subplot(2, 2, 3) 


1.0 1.0 
0.8r 0.8 
0.6r 0.6 
0.4r 0.4 
0.2 0.2 


图 8-2: 市 有 三 个 subplot 的 Figure 


如 果 这 时 发 出 一 条 绘图 命令 (如 
plt.plot([1.5,3.5,-2,1.6D)) ，matplotlib 就 会 在 最 后 
个 用 oil (如 果 没 有 则 创 建 一 个 ) 下 进行 
绘制 。 因 此 ， 如 采 我 们 执行 下 列 命 令 ， 你 了 驶 会 得 
到 如 图 8-3 所 示 的 结果 : 


In [17]: from numpy.random import randn 


In [18]: plt.plot(randn(50).cumsum(), 'k--') 


图 8-3: 绘制 一 次 之 后 的 图 像 


"k--" 是 一 个 线 型 选项 ， 用 于 告诉 matplotlib 绘 
制 凌 色 虚 线 图 。 上 面 那些 由 fig.add_subplot 所 返回 
的 对 象 是 AxesSubplot 对 象 ， 直 接 调 用 它们 的 实例 
ee 如 图 
8-4 及 不 : 


In [19]: _ = axi.hist(randn(100), bins=20, color=" 
alpha=0.3) 


入 
< 


In [20]: ax2.scatter(np.arange(30), np.arange(30) + 3 * 
randn(30)) 


=2 一 上 0 1 2 7 0 5 10 15 20 25 30 35 


图 8-4: 继续 绘制 两 次 之 后 的 图 像 


你 可 以 在 matplotlib 的 文档 中 找到 各 种 图 表 类 
型 。 由 于 根据 特定 布局 创建 Figure 和 subplot 古 一 件 
非常 币 见 的 任务 ， 于 是 便 出 现 了 一 个 更 为 方便 的 
方法 (plt.subplots) ， 它 可 以 创建 一 个 新 的 
Figure， 并 返回 一 个 舍 有 已 创建 的 subplot 对 象 的 
NumPy 效 组 : 


In [22]: fig, axes = plt.subplots(2, 3) 


In [23]: axes 

Out[23]: 

array([[Axes(0.125,0.536364;0.227941x0.363636), 
Axes (0.398529,0.536364;0.227941x0.363636)，, 


Axes (0.672059,0.536364;0.227941x0.363636)], 

[Axes (0.125,0.1;0.227941x0.363636), 

Axes (0.398529,0.1;0.227941x0.363636)，, 

Axes (0.672059,0.1;0.227941x0.363636)]], 
dtype=object) 


这 是 非常 实用 的 ， 因 为 可 以 轻松 地 对 axes 数 组 
进行 索引 ， 束 好 像 是 一 个 二 维 数 组 一 样 ， 例 如 ， 
axes[0,1]。 你 还 可 以 通过 sharex 和 sharey 指 定 
subplot 以 该 具有 相同 的 X 轴 或 Y 轴 。 在 比较 相同 范 
围 的 数据 时 ， 这 也 是 非常 实用 的 ， 否 则 ， 
matplotlib 会 目 动 缩放 各 图 表 的 界限 。 有 天 该 方法 
的 更 多 信息 ， 请 参见 表 8-1 。 


表 8-1: pyplot.subplots 的 选项 


参数 说 明 

Nrows subplot 的 行 数 

ncols subplot 的 列 数 

sharex 所 有 subplot 应 该 使 用 相同 的 X 轴 刻度 (调节 xlim 将 会 影响 所 有 subplot) 
sharey 所 有 subplot 应 该 使 用 相同 的 Y 轴 刻度 (调节 ylim 将 会 影响 所 有 subplot) 
subplot_kw ”用 于 创建 各 subplot 的 关键 字 字 典 

**fig_kw 创建 figure 时 的 其 他 关键 字 ， 如 plt.subplots(2,2,figsize=(8,6)) 


调整 subplot 周 围 的 间距 


默认 情况 下 ，matplotlib 会 在 subplot 外 围 留 
一 定 的 边 距 ， 并 在 subplot 之 间 留 下 一 证 的 问 耻 " 
0 5 度 有 关 ， 因 此 ， 如 有 果 你 调 
整 了 图 像 大 小 (不 管 是 编程 还 是 手工 )， 间 距 也 


会 目 动 调整 。 利 用 Figure 的 subplots_adjust 方 法 可 
以 轻而易举 地 修改 间距 ， 此 外 ， 它 也 是 个 顶级 函 
数 : 


wspace=None, 
hspace=None) 


wspace 和 hspace 用 于 控制 宽度 和 高 度 的 百 分 
比 ， 可 以 用 作 subplot 之 间 的 间距 。 下 面 是 一 个 曾 
其 中 我 将 间距 收缩 到 了 0 (如 图 8-5 所 
示 


fig, axes = plt.subplots(2, 2, sharex=True, sharey=True) 
for i in range(2): 
for j in range(2): 
axes[i, j].hist(randn(500), bins=50, color="'k', 
alpha=0.5) 
plt.subplots adjust(wspace=0, hspace=0) 


rp 


图 8-5: 各 subplot 之 间 没 有 间距 


不 难看 出 ， 其 中 的 轴 标 丛 重 车 了 。matplotlib 
不 会 检查 标 侈 是 否 重 车 ， 所 以 对 于 这 种 情况 ， 你 
只 能 目 己 设 定 刻 度 位 置 和 刻度 标签 。 后 面 儿 和 将 
会 详细 介绍 该 内 容 。 
闫 色 、 标 记 和 线 型 

matplotlib 的 plot 函 数 接受 一 组 X 和 Y 坐 标 ， 还 
可 以 接受 一 个 表示 关 色 和 线 型 的 字符 串 缩 写 。 例 
要 根据 x 和 和 y 绘 制 绿色 虚线 ， 你 可 以 执行 如 下 

ax.plot(x, y, 'g--') 

这 种 在 一 个 字符 串 中 指定 闫 色 和 线 型 的 方式 
非常 方便 。 通 过 下 面 这 种 更 为 明确 的 方式 也 能 得 
到 同样 的 效果 : 


ax.Pplot(x, y, linestyle='--", color="g") 


常用 的 颜色 都 有 一 个 缩写 词 ， 要 使 用 其 他 任 
意 颜 色 则 可 以 通过 指定 其 RGB 值 的 形式 使 用 〈 例 
如 ，#CECECE') 。 完 整 的 linestyle 列 表 请 参见 plot 
的 文档 。 


线 型 图 还 可 以 加 上 一 些 标记 (marker) ， 以 
强调 实际 的 数据 点 。 由 于 matplotlib 创 建 的 是 连续 
的 线 型 图 (点 与 点 之 间 插 值 ，， 因 此 有 了 时 可 能 不 
太 容 易 看 出 真实 数据 点 的 位 置 。 标 记 也 可 以 放 到 
格式 字符 串 中 ， 但 标记 类 型 和 线 型 必须 放 在 颜色 
后 面 (如 图 8-6 所 示 ) 


In [28]: plt.plot(randn(30).cumsum(), 'ko--') 


图 8-6: 带 有 标记 的 线 型 图 示例 
还 可 以 将 其 写成 更 为 明确 的 形式 : 


plot(randn(30).cumsum(), color='k', linestyle='dashed', 
marker='o ') 


在 线 型 卯 中 ， 非 实际 数据 点 默认 是 按 线 性 方 
式 插值 的 。 可 以 通过 drawstyle 选 项 修改 : 


In [30]: data = randn(30).cumsum() 


In [31]: plt.plot(data, 'k--', label='Default') 
Out[31]: [<matplotlib.1lines.Line2D at QOx461cdd0>] 

In [32]: plt.plot(data, 'k-', drawstyle='steps-post', 
label='steps-post') 

Out[32]: [<matplotlib.1lines.Line2D at Ox461f350>] 


In [33]: plt.legend(loc='best') 


刻度 、 标 伺 和 图 例 


对 于 大 多 数 的 图 表 猜 饰 项 ， 其 主要 实现 方式 
有 二 : 使 用 过 程 型 的 pyplot 接 口 (MATLAB 用 户 非 
常 装 悉 ) 以 及 更 为 面向 对 象 的 原生 matplotlib 
API。 


pyplot 接 口 的 设计 目的 束 是 交互 式 使 用 ， 含 有 
诸如 xlim、xticks 和 xticklabels 之 类 的 方法 。 它 们 分 
别 控制 图 表 的 范围 、 刻 度 位 置 、 刻 度 标 签 等 。 其 
使 用 方式 有 以 下 两 种 : 


调用 时 不 带 参数 ， 则 返回 当前 的 参数 值 二 
1。 例 如 ，pltxlim0 返 回 当 前 的 X 轴 绘图 范围 。 


调用 时 带 参 数 ， 则 设置 参数 值 。 因 此 ， 
plt.xlim([0,10]) 会 将 X 轴 的 范围 设置 为 0 到 10。 


-- Default 
-一 steps-post 


图 8-7: 不 同 drawstyle 选 项 的 线 型 


所 有 这 些 方法 都 是 对 当前 或 最 近 创 建 的 
AxesSubplot 起 作用 的 。 它 们 各 目 对 应 subplot 对 象 
上 的 两 个 方法 ， 以 xlim 为 例 ， 束 是 ax.get_xlim 和 
ax.set_xlim。 我 更 喜欢 使 用 subplot 的 实例 方法 ( 因 
为 我 喜欢 明确 的 事情 ， 而 且 在 处 理 多 个 subplot 时 
这 样 也 更 清楚 一 些 ) 。 当 然 你 完全 可 以 选择 目 己 
觉得 方便 的 那个 。 


设置 标题 、 轴 标 釜 、 刻 度 以 及 刻度 标 等 


为 了 说 明 轴 的 目 定 义 ， 我 将 创建 一 个 简单 的 
图 像 并 绘制 一 段 随 机 漫步 (如 图 8-8 所 示 ) : 


In [34]: fig = plt.figure(); ax = fig.add subplot(1, 1, 1) 


In [35]: ax.plot(randn(1000).cumsum()) 


200 400 600 800 1000 


图 8-8: 用 于 演示 xticks 的 简单 线 型 


要 修改 X 轴 的 刻度 ， 最 简单 的 办 法 是 使 用 
set_xticks 和 set_xticklabels。 前 考 告 诉 matplotlib 有 要 
将 刻度 放 在 数据 范围 中 的 哪些 位 置 ， 默 认 情 况 
下 ， 这 些 位 置 也 就 是 刻度 标签 。 但 我 们 可 以 通过 
set_xticklabels 将 任何 其 他 的 值 用 作 标 伶 : 


In [36]: ticks = ax.set xticks([0, 250, 500, 750, 1000]) 


In [37]: labels = ax.set xticklabels(['one', 'two', 'three', 
'four', 'five'], 

ee rotation=30, 
fontsize="'small') 


最 后 ， 有 再 用 set xlabel 为 X 轴 设置 一 个 名 称 ， 并 
用 set_ title 设置 一 个 标题 : 


In [38]: ax.set_ title('My first matplotlib plot"') 
Out[38]: <matplotlib.text.Text at Ox7f9190912850> 


In [39]: ax.set xlabel('Stages') 


最 终结 来 如 图 8-9 所 示 。Y 轴 的 修改 方式 与 此 
类 似 ， 只 需 将 上 述 代 码 中 的 x 礁 换 为 y 即 可 。 


次 加 图 例 


图 例 (legend) 是 男 一 种 用 于 标识 图 表 元 素 的 
重要 工具 。 添 加 图 例 的 方式 有 二 。 最 倍 持 的 古 在 
添加 subplot 的 时 候 传 入 label 参 数 : 


In [40]: fig = plt.figure(); ax = fig.add subplot(1, 1, 1) 


In [41]: ax.plot(randn(1000).cumsum(), 'k', label='one') 
Out[41]: [<matplotlib.1lines.Line2D at QOx4720a90>] 


My first matplotlib plot 


we «ov RR 
Stages 


Ny 一 一 a y 
图 8-9: 用 于 壮 示 xticks 的 催 单 线 型 
In [42]: ax.plot(randn(1000).cumsum(), 'k--', label="'two') 
Out[42]: [<matplotlib.1lines.Line2D at Ox4720f90>] 


In [43]: ax.plot(randn(1000).cumsum(), 'k.', label='three') 
Out[43]: [<matplotlib.1lines.Line2D at QOx4723550>] 


在 此 之 后 ， 你 可 以 调用 ax.legend() 或 
plt.legend() 来 日 动 创建 图 例 : 


In [44]: ax.legend(loc='best') 


如 图 8-10 所 示 。1loc 告 诉 matplotlib 要 将 图 例 放 
在 哪 。 如 末 你 不 是 吹 毛 求 关 的 话 ，"beat" 十 不 销 的 
选择 ， 因 为 它 会 克 择 最 不 人 碍 事 的 位 置 。 要 从 图 例 
中 云 除 一 个 或 多 个 元 聚 ， 不 传 入 label 或 传 入 
label=' nolegend_' 印 可 。 


注解 以 及 在 Subplot 上 绘 


除 标 准 的 图 表 对 象 之 外 ， 你 可 能 还 布 户 绘 制 
"0 (比如 文本 、 箭 头 或 其 他 图 形 


名 


缆 


oO 


注解 可 以 通过 text、arrow 和 annotate 等 贸 数 进 
行 添加 。text 可 以 将 文本 绘制 在 图 表 的 指定 坐标 
(X,y)， 还 可 以 加 上 一 些 自 定义 格式 : 


ax.text(x, y, 'Hello world!', 
family='monospace', fontsize=10) 
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色 8-10: 市 有 三 条 线 以 及 图 例 的 从 单线 型 图 


注解 中 可 以 既 含 有 文本 也 含有 箭头 。 例 如 ， 
我 们 根据 2007 年 以 来 的 标准 普尔 500 指 数 收 一 价格 


(来 自 Yahoo!Finance) 绘制 一 张 曲线 图 ， 并 标 出 
2008 年 到 2009 年 金融 危机 期 间 的 一 些 重要 日 期 。 
结果 如 图 8-11 所 示 : 


Important dates in 2008-2009 financial crisis 
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图 8-11: 2008-2009 年 金融 危机 期 间 的 重要 日 期 


from datetime import datetime 


fig = plt.figure() 
ax = fig.add_ subplot(1, 1, 1) 


data = pd.read csv('ch08/spx.csv', index_col=0, 
parse_dates=True) 
spx = data[ 'SPX'] 


spx.plot(ax=ax, style='k-') 


crisis data = [ 
(datetime(2007, 10, 11), "Peak of bull market'), 
(datetime(2008, 3, 12), 'Bear Stearns Fails'), 
(datetime(2008, 9, 15), 'Lehman Bankruptcy ' ) 

] 


for date, label in crisis data: 


ax.annotate(label, xy=(date, spx.asof(date) + 50), 
xytext=(date, spx.asof(date) + 200), 
arrowprops=dict(facecolor='black'), 
horizontalalignment="'1left', 

verticalalignment='top') 


# 放大 到 2007-2010 
ax.set_xlim(['1/1/2007', '1/1/2011']) 
ax.set_ylim([600, 1800]) 


ax.set_title('Important dates in 2008-2009 financial crisis') 


更 多 有 关注 解 的 示例 ， 请 访问 matplotlib 的 在 
线 示 例 库 。 


图 形 的 绘制 要 据 烦 一 些 。matplotlib 有 一 些 表 
示 第 见 图 形 的 对 象 。 这 些 对 象 个 称 为 块 
(patch) 。 其 中 有 些 可 以 在 matplotlib.pyplot 中 找 
到 (如 Rectangle 和 Circle) ， 但 完整 集合 位 于 
matplotlib.patches ° 


要 在 图 表 中 添加 一 个 图 形 ， 你 需要 创建 一 个 
块 对 象 shhp， 然 后 通过 ax.add_patch(shp) 将 其 添加 到 
subplot 中 (如 图 8-12 所 示 ) 


fig = plt.figure() 
ax = fig.add_ subplot(1, 1, 1) 


rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color="'k', 
alpha=0.3) 

circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3) 
pgon = plt.Polygon([[90.15, 0.15], [0.35, 0.4], [0.2, 0.6]], 
color='g', alpha=0.5) 


ax.add_patch(rect) 


ax.add_patch(circ) 
ax.add_patch(pgon) 


如 琳 查 看 许多 妾 见 图 表 对 象 的 具体 实现 代 


人 拘 ， 你 融会 发 现 它们 其 实 束 生 由 块 组 刻 而 成 的 。 


图 8-12: 由 三 个 块 图 形 组 成 的 图 
将 图 表 你 和 存 到 文件 


利用 plt.savefig 可 以 将 当前 向 才 你 存 到 文件 。 


该 方法 相当 于 Figure 对 象 的 实例 方法 savefig。 例 
如 ， 要 将 图 表 保 存 为 SVG 文件 ， 你 只 需 输 入 : 


plt.savefig('figpath.svg') 


文件 类 型 是 通过 文件 扩展 名 推断 出 来 的 。 因 
此 ， 如 果 你 使 用 的 是 .pdf， 就 会 得 到 一 个 PDF 文 
件 。 我 在 发 布 图 乒 时 最 第 用 到 两 个 重要 的 选项 是 
dpi 〈 欣 制 “ 每 英寸 点 数 ” 分 辨 率 ) 和 bbox_inches 

(可 以 剪除 当前 图 表 周 围 的 空白 部 分 ) 。 要 得 到 
一 张 市 有 节 小 日 边 且 分 辨 率 为 400DPI 的 PNG 图 
上 请， 你 可 以 : 


plt.savefig('figpath.png', dpi=400, bbox_inches='tight') 


savefig 并 非 一 定 要 写 入 向 一 ， 也 可 以 写 入 任 
何 文件 型 的 对 象 ， 比 如 StringIO: 
from io import StringIO 
buffer = StringI0() 


plt.savefig(buffer) 
plot_data = buffer.getvalue() 


这 对 在 Web 上 提供 动态 生成 的 图 厂 是 很 实用 
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Figure.savefig 方 法 的 参数 及 说 明 如 表 8-2 所 
A O 


表 8-2: Figure.savefig 的 选项 


参数 说 明 

fname 含有 文件 路 径 的 字符 串 或 Python 的 文件 型 对 象 。 图 像 格式 由 文 
件 扩展 名 推断 得 出 ， 例 如 ，.pdf 推 断 出 PDF，.png 推 断 出 PNG 

dpi 图 像 分 辩 率 (每 英寸 点 数 ) ， 默 认为 100 

facecolor、edgecolor 图 像 的 背景 色 ， 默 认为 “w” (白色 ) 

format 显 式 设置 文件 格式 (“png”、 “pdf”、 “svg”、 “ps”、 
Sp ) 

bbox_inches 图 表 需 要 保存 的 部 分 。 如 果 设 置 为 “tight”， 则 将 尝试 剪除 图 
表 周 围 的 空白 部 分 

matplotlib 配 置 


matplotljib 目 市 一 些 配色 方案 ， 以 及 为 生成 出 
版 质量 的 图 厂 而 设 定 的 默认 配置 信息 。 和 亚运 的 
是 ， 儿 乎 所 有 默认 行为 都 能 通过 一 组 全 局 参数 进 
行 日 定义 ， 它 们 可 以 管理 图 像 大 小 、subplot 边 
距 、 配 色 方 案 、 字 体 大 小 、 网 格 类 型 等 。 操 作 
matplotlib 配 置 系统 的 方式 主要 有 两 种 。 第 一 种 是 
Python 编程 方式 ， 即 利用 rc 方法 。 比 如 说 ， 要 将 全 
局 的 图 像 默 认 大 小 设置 为 10x10， 你 可 以 执行 : 


plt.rc('figure', figsize=(10, 10)) 


rc 的 第 一 个 参数 是 希望 日 定义 的 对 象 ， 
uD'figure' ~ 'axes' 、 'xtick' 、'ytick' 、'grid'、']egend' 等 
。 其 后 可 以 跟 上 一 系列 的 天 键 字 参数 。 最 倍 早 的 
办 法 是 将 这 些 远 项 写成 一 个 字典 : 


font_options = {'family' : "monospace '， 
'weight' : "bold '， 
"SIZe， : 'small'} 

plt.rc('font', **font_options) 


要 了 解 全 部 鸭 目 定义 选项 ， 请 查阅 matplotlib 
的 配置 文件 matplotlibrc (位 于 matplotlib/mpl-data 
目 未 中) 。 如 采 对 该 文件 进行 了 目 定义 ， 并 将 其 
放 在 你 自己 的 .matplotlibrc 目 录 寺 于 中 ， 则 每 次 使 
用 matplotlib 时 就 会 加 载 该 文件 。 


译注 1: 前 面 的 参数 是 argument， 后 面 的 参数 是 
parameter。 我 贫 得 后 面 那个 parameter 不 太 合 适 ， 
但 又 实在 想 不 出 更 好 的 表达 方式 。 各 位 读者 可 以 
把 后 面 那 个 parameter 理 解 为 “当前 配置 值 ”。 下 面 
那 条 也 征 如 此 。 

译 广 2: 正确 的 目 孙 名 是 .matplotlib。 


pandas 中 的 绘图 函数 


不 难看 出 ，matplotlib 实 际 上 是 一 种 比较 低级 
有 的 工具 。 有 要 组 洲 一 张 图 表 ， 你 得 用 它 的 各 种 基础 
组 件 才 行 : 数据 展示 ( 即 图 表 类 型 线 型 网 、 柱 
状 图 、 念 形 图 、 散 布 图 、 等 值 线 图 等 )、 图 例 、 
标题 、 刻 度 标签 以 及 其 他 注解 型 信息 。 这 是 因为 
要 根据 数据 制作 一 张 完整 图 表 通 常 都 需要 用 到 多 
个 对 象 。 在 pandas 中 ， 我 们 有 行 标 签 、 列 标签 以 及 
分 组 信息 (可 能 有 ) 。 这 也 就 是 说 ， 要 制作 一 张 
完整 的 图 表 ， 原 本 需要 一 大 堆 的 matplotlib 代 码 ， 
现在 只 需 一 两 条 简洁 的 语句 残 可 以 了 。pandas 有 许 
多 能 够 利用 DataFrame 对 象 数 据 组 织 特点 来 创建 标 
te ne (这 些 函 数 的 数量 还 在 不 
煌 增加 ) 。 


警告: 到 目前 为 止 ，pandas 团 队 已 经 在 绘图 
功能 上 下 了 很 大 工夫 。 一 个 参加 了 “2012Google 
Summer of Code 计 划 ”* 的 学 生 正 在 夜以继日 地 添加 
狐 功 能 ， 并 使 该 接口 具有 更 好 的 一 致 性 和 可 用 
性 。 因 此 ， 本 书 中 的 这 部 分 代码 可 能 很 快 束 要 过 
时 了 。 如 果 那 样 鸭 话 ，pandas 在 线 文档 将 会 是 最 好 
的 学 习 资 源 。 


Series 和 DataFrame 都 有 一 个 用 于 生成 各 类 
表 有 的 plot 方 法 。 默 认 情 况 下 ， 它 们 所 生成 的 古 线 型 
(如 图 8-13 所 示 ) : 


In [55]: $s = Series(np.random.randn(10).cumsum( ), 
index=np.arange(0, 100, 10)) 


In [56]: Ss.plot() 


该 Series 对 象 的 索引 会 家 传 给 matplotlib， 并 用 
以 绘制 X 轴 。 可 以 通过 use_ index=False 禁 用 该 功 
能 。X 轴 的 刻度 和 界限 可 以 通过 xticks 和 xlim 选 项 
进行 调节 ，Y 轴 天 用 yticks 和 ylim。plot 参 数 的 完整 
列表 请 参见 表 8-3。 我 只 会 讲解 其 中 几 个 ， 琵 下 的 
歼 留 给 该 者 目 己 去 人 钱 究 了 。 


图 8-13: 简单 的 Series 图 表示 例 


pandas 的 大 部 分 绘图 方法 都 有 一 个 可 选 的 ax 参 
数 ， 它 可 以 是 一 个 matplotlib 的 subplot 对 象 。 这 使 
能 够 在 网 格 布局 中 更 为 灵活 地 处 理 subplot 的 位 


DataFrame 的 plot 方 法 会 在 一 个 subplot 中 为 各 
列 绘制 一 条 线 ， 并 上 自动 创建 图 例 (如 图 8-14 所 
示 ) : 
TS of = Datarranetnp randon, randn( 70, 4) -cnsunto), 
，1D， 


Columns=[ 'A' 
index=np. arange(e， ee 10)) 


In [58]: df.plot() 


注意 : plot 的 其 他 关键 字 参 数 会 被 传 给 相应 的 
matplotlib 绘 图 艺 效 ， 所 以 要 更 深入 地 目 定 义 图 
表 ， 束 必须 学 习 更 多 有 天 matplotlib API 的 知识 。 


图 8-14: 人 簿 单 的 DataFrame 图 表示 例 


表 8-3: Series.plot 方 法 的 参数 


参数 说 明 

label 用 于 图 例 的 标签 

ax 要 在 其 上 进行 绘制 的 matplotlib subplot 对 象 。 如 果 没 有 设置 ， 则 使 用 当前 
matplotlib subplot 

style 将 要 传 给 matplotlib 的 风格 字符 串 (如 'ko--") 


alpha 图 表 的 填充 不 透明 度 (0 到 1 之 间 ) 


表 8-3: Series.plot 方 法 的 参数 ( 续 ) 


参数 说 明 

kind 可 以 是 'line'、'bar'、'barh'、'kde' 
logy 在 Y 轴 上 使 用 对 数 标尺 
use_index ”将 对 象 的 索引 用 作 刻 度 标签 

rot 旋转 刻度 标签 (0 到 360) 


xticks 用 作 X 轴 刻度 的 值 
yticks 用 作 Y 轴 刻度 的 值 


xlim X 轴 的 界限 (例如 [0, 10] ) 
ylim Y 轴 的 界限 
grid 显示 轴 网 格 线 (默认 打开 ) 


人 一 些 用 于 对 列 进行 灵活 处 理 的 
例如 ， 征 要 将 所 有 列 都 绘制 到 一 个 subplot 
ii 目的 subplot。 详 细 信 息 请 参见 表 8- 
oO 


表 8-4: 专用 于 DataFrame 的 plot 的 参数 


参数 说 明 

subplots 将 各 个 DataFrame 列 绘制 到 单独 的 subplot 中 

sharex 如 果 subplots=True， 则 共用 同一 个 X 轴 ， 包 括 刻 度 和 界限 
sharey 如 果 subplots=True， 则 共用 同一 个 Y 轴 

figsize 表示 图 像 大 小 的 元 组 

title 表示 图 像 标题 的 字符 串 

legend 添加 一 个 subplot 图 例 (默认 为 True) 


sort_columns ”以 字母 表 顺 序 绘制 各 列 ， 默 认 使 用 当前 列 顺序 


注意 : 有 关上 时间 序 列 的 绘制 搁 术 ， 请 参见 第 
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柱状 图 


在 生成 线 型 图 的 代码 中 加 上 kind=bar (垂直 
柱状 图 ) 或 kind="barh' (水 平 柱状 图 ) 即 可 生成 柱 
状 图 。 这 时 ，Series 和 DataFrame 的 索引 将 会 被 用 
作 X (bar) 或 Y (barh) 刻度 (如 图 8-15 所 示 ) 


In [59]: fig, axes = plt.subplots(2, 1) 


In [60]: data = Series(np.random.rand(16), 
index=list('abcdefghijklmnop")) 


In [61]: data.plot(kind='bar', ax=axes[0], color="'k", 


alpha=0.7) 
Out[61]: <matplotlib.axes.AxesSubplot at Ox4ee7750> 


In [62]: data.plot(kind='barh', ax=axes[1], color="'k', 
alpha=0.7) 


注意 : ”更 多 有 天 plt. ee 国 效 以 及 
matplotlib 轴 和 图 像 的 信息 ， 请 参见 本 章 后 续 的 内 
2 O 


对 于 DataFrame， 柱 状 图 会 将 每 一 行 的 值 分 为 
一 组 ， 如 图 8-16 所 示 : 


In a df = DataFrame(np.random.rand(6, 4), 

index=['one', 'two', 'three', 'four '， 
'five'’ 'six'], 

columns=pd.Index(['A', 'B', 'C', 


'D'], name='Genus')) 


In [64]: d 


Out[64]: 
Genus 
one 

two 
three 


five 
Six 


0 
0 
0 
four 0 ， 
0 
0 


f 


A 


.301686 
.750589 
.381504 


942408 


.840278 
.062854 


©OOOOOoO 


B 
156333 
525587 
667707 
180186 
909589 
589813 


In [65]: df.plot(kind='bar') 


©OOOOOoO 


C 
371943 
689429 


,473772 


708284 
©010041 
811318 


©OOOOOoO 


D 
270731 
358974 
632528 
641783 
653207 
©060217 


| 
图 8-15: 水 平和 垂直 柱状 图 示例 
注意 ，DataFrame 各 列 的 名 称 "Genus" 被 用 作 


了 图 例 的 标题 。 设 置 stacked=True 即 可 为 


DataFrame 生 成 堆积 柱状 图 ， 这 样 每 行 的 值 就 会 被 
堆积 在 一 起 (如 图 8-17 所 示 ) 


In [67]: df.plot(kind='barh', stacked=True, alpha=0.5) 


注意 : 柱状 图 有 一 个 非常 不 错 的 用 法 : 利用 
value_counts 图 形 化 显示 Series 中 各 值 的 出 现 频 座 ， 
比如 s.value_counts ().plot(kind='bar") 。 


再 以 本 书 甫 面 用 过 的 那个 有 天 小 费 的 数据 集 
为 例 3， 假 设 我 们 想 要 做 一 张 堆积 柱状 图 以 展 
示 每 天 各 种 聚会 规模 的 数据 点 的 百分比 。 我 用 
read_csv 将 数据 加 载 进 来 ， 然 后 根据 日 期 和 聚会 规 
模 创 建 一 张 区 叉 表 : 


In [68]: tips = pd.read csv('ch08/tips.csv') 


In [69]: party_counts = pd.crosstab(tips.day, tips.size) 


In [70]: party_counts 


Out[70]: 

size 1 2 3 4 5 6 
day 

Fri 1 16 1 1 0 0 
Sat 2 53 18 13 1 0 
Sun 0 39 15 18 3 1 
Thur 1 48 4 5 1 3 


# 1 个 人 和 6 个 人 的 聚会 都 比较 少 
In [71]: party_counts = party_counts.ix[:, 2:5] 


图 8-17: DataFrame 堆 积 柱状 图 示例 


然后 进行 规格 化 ， 使 得 各 行 的 和 为 1 (必须 转 
换 成 浮 点 数 ， 以 避免 Python 2.7 中 的 整数 除法 问 
题 ) ， 并 生成 图 表 〈 如 图 8-18 所 示 ) : 


丰 观 冤 作成 "和 Fi 
In [72]: party_pcts = 
party_counts.div(party_counts.sum(1).astype(float), axis=0) 


In [73]: party_pcts 


Out[73]: 

size 2 3 4 5 
day 

Fri 0.888889 0.055556 0.055556 0.000000 
Sat 0.623529 0.211765 0.152941 0.0117625 
Sun 0.520000 0.200000 0.240000 0.040000 
Thur 0.827586 0.068966 0.086207 0.017241 


In [74]: party_pcts.plot(kind='bar', stacked=True) 


于 征 ， 通过 该 数据 集束 可 以 看 出 ， 聚 会 规 标 
任 周 林 会 受信 


直方 图 和 密度 图 


直方 图 (histogram) 是 一 种 可 以 对 值 频率 进 
行 离散 化 显示 的 柱状 图 。 数 据 总 人 税 拆 分 到 离 亦 
的 、 间 隅 均匀 的 面 元 中 ， 0 
点 的 数量 。 和 再 以 前 面 那个 小 费 数据 为 例 ， 通 过 
Series 的 hist 方 法 ， 我 们 可 以 生成 一 张 “ 小 费 占 请 费 


总 额 百分比 ”4 的 直方 图 (如 图 8-19 所 示 ) : 


图 8-18: 每 天 各 种 聚会 规模 的 比例 


In [76]: tips['tip pct'] = tips['tip'] / tips['total bill'] 


In [77]: tips['tip_pct'].hist(bins=50) 


图 8-19: 小 费 百 分 比 的 直方 图 


与 此 相关 的 一 种 图 表 类 型 是 密度 图 ， 它 是 通 
过 计算 “可 能 会 产生 观测 数据 的 连续 概率 分 布 的 估 
计 ” 而 产生 的 。 一 般 的 过 程 是 将 该 分 布 近似 为 一 组 
核 ( 即 诸如 正 态 (高 斯 ) 分 布 之 类 的 较为 简单 的 
分 布 ) 。 因 此 ， 密 度 图 也 被 称 作 KDE (Kernel 
Density Estimate， 核 密度 估计 ) 图 。 调 用 plot 时 加 
上 kind=kde' 即 可 生成 一 张 密度 图 (标准 混合 正 态 
分 布 KDE) ， 如 图 8-20 所 示 : 


In [79]: tips['tip_pct'].plot(kind='kde') 


9 
7 
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图 8-20: 小 费 百分比 的 密度 图 


这 两 种 图 表 第 弟 会 饮 男 在 一 起 。 直 方 图 以 规 
格 化 形式 给 出 (以 便 给 出 面 元 化 密度 ， 然 后 再 
在 其 上 绘制 核 密度 估计 。 接 下 来 来 看 一 个 由 两 个 


不 同 的 标准 正 态 分 布 组 成 的 双 峰 分 布 (如 图 8-21 


所 示 ，) 


In [81]: 
In [82]: 
In [83]: 


In [84]: 


normed=True) 
Out[84]: <matplotlib.axes.AxesSubplot at Ox5cd2350> 


In [85] 


做 布 


: Vvalues.plot(kind='kde', 


comp1 = np.random.normal(0, 1, size=200) # N(0, 1) 
comp2 = np.random.normal(10, 2, size=200) # N(10, 
values = Series(np.concatenate( [comp1，comp2]) ) 


values,hist(bins=100，alLlpha=0.3，Ccolor='K'， 


style='k--') 


散布 图 (scatter plot) 是 观察 两 个 一 维 数据 序 
列 之 间 的 天 系 的 有 效 手 段 。matplotlib 的 scatter 方 法 
是 绘制 艇 布 图 的 主要 方法 。 在 下 面 这 个 例子 中 ， 
我 加 载 了 来 目 statsmodels 项 目的 macrodata 数 据 
集 ， 选 择 其 中 几 列 ， 然 后 计算 对 数 差 : 


In [86]: 
In [87]: 


In [88]: 


data = macro[['cpi', 'm1', 
: trans_data[-5:] 

cpi mi tbilrate 
007904 0.045361 -0.396881 
021979 0.066753 -2.277267 
002340 0.010286 0.606136 
008419 0.037461 -0.200671 
008894 0.012202 -0.405465 


©OOOOoO 


macro = pd.read csv('cho8/macrodata.csv') 
'tbilrate', 'unemp']] 


trans_data = np.log(data).diff().dropnal() 


unemp 


.105361 
.139762 
.160343 
.127339 
.©042560 


到 8-21: 带 有 和 密度 估计 的 规格 化 直方 图 


利用 plt.scatter 即 可 轻松 绘制 一 张 侧 单 的 敌 布 
(如 图 8-22 所 示 ) 


In [91]: plt.scatter(trans_data['m1i'], trans_data['unemp']) 
Out[91]: <matplotlib.collections.PathCollection at Ox43c31d0> 


In [92]: plt.title('Changes in log %s vs. log %s' % ('m1i', 
'unemp ' )) 


在 探索 式 数 据 分 析 工 作 中 ， 同 时 观察 一 组 变 
量 的 散布 图 是 很 有 意义 的 ， 这 也 被 称 为 散布 图 和 矩 
阵 (scatter plot matrix) 。 纯 手工 创建 这 样 的 图 表 
很 费 工 夫 ， 所 以 pandas 提 供 了 一 个 能 从 DataFrame 
创建 散布 图 矩阵 的 scatter_matrix 范 数 。 它 还 支持 在 
对 角 线 上 放置 各 变量 的 直方 图 或 密度 图 。 结 果 如 
图 8-23 所 示 : 


In [93]: pd.scatter_matrix(Ctrans_data，diagonal='kde '， 
color='k', alpha=0.3) 


Changes in log ml vs. log unemp 
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到 8-22: 一 张 简单 的 散布 图 


Scatter plot matrix of statsmodels macro data 
1 


n 
本 和 
口 
1 


tbilrate 


tbilrate 


图 8-23: statsmodels macro data 的 散布 图 矩阵 


本 书 前 面 没 有 用 过 这 个 数据 集 ， 读 者 不 用 
;> 了。 
译注 4:， 仔细 观察 数据 可 以 发 现 ， 实 际 并 不 是 这 样 
的 ， 因 为 这 里 的 小 费 可 能 不 在 消费 尽 额 里 面 。 仪 
仅 当 做 一 个 例子 即 可 ， 不 必 深 宛 。 


绘制 地 匈 : 独 形 化 显示 海地 地 震 危 机 
效 据 


Ushahidi 十 一 家 非 宫 利 软件 公司 ， 人 们 可 以 通 

过 短信 回 其 捉 供 有 头目 伏 灾 害 和 地 绿 政 治 事件 的 
信息 。 这 些 效 据 集会 被 发 布 在 他 们 的 网 站 

(http://community.ushahidi.com/research/datasets/ 
) 上 以 供 分 析 和 图 形 化 。 我 下 载 了 2010 年 海地 地 
许 及 其 余震 期 间 搜集 的 数据 。 在 本 广 中 ， 我 将 告 
诉 你 如 何 利 用 pandas 以 及 其 他 目前 已 经 学 过 的 工具 
处 理 这 些 数 据 ， 以 便 为 分 析 和 图 形 化 工作 做 准 
备 。 从 上 面 的 链接 下 载 好 这 个 CSV 文 件 之 后 ， 吏 
可 以 用 read_csv 将 其 加 载 到 DataFrame 中 了: 


In [94]: data = pd.read csv('ch08/Haiti.csv') 


In [95]: data 

Out[95]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3593 entries, © to 3592 
Data columns: 


Serial 3593 non-null values 
INCIDENT TITLE 3593 non-null values 
INCIDENT DATE 3593 non-null values 
LOCATION 3593 non-null values 
DESCRIPTION 3593 non-null values 
CATEGORY 3587 non-null values 
LATITUDE 3593 non-null values 
LONGITUDE 3593 non-null values 
APPROVED 3593 non-null values 
VERIFIED 3593 non-null values 


dtypes: float64(2), int64(1), object(7) 


现在 来 处 理 一 下 这 些 数据 ， 看 看 哪些 是 我 们 
想 要 的 。 每 一 行 表 示 一 条 从 某 人 的 手机 上 发 送 的 
紧急 或 其 他 问题 的 报告 。 每 条 报告 都 有 一 个 时 间 
惟 和 位 置 (经 度 和 纬度 ) : 


in [96]: data[['INCIDENT DATE', ‘LATITUDE', "LONGITUDE"]] 


[:10] 
Out[96]: 

INCIDENT DATE LATITUDE LONGITUDE 
05/07/2010 17:26 18.233333 -72.533333 
28/06/2010 23:06 50.226029 5.729886 
24/06/2010 16:21 22.278381 114.174287 
20/06/2010 21:59 44.407062 8.933989 
18/05/2010 16:26 18.571084 -72.334671 
26/04/2010 13:14 18.593707 -72.310079 
26/04/2010 14:19 18.482800 -73.638800 
26/04/2010 14:27 18.415000 -73.195000 
15/03/2010 10:58 18.517443 -72.236841 
15/03/2010 11:00 18.547790 -72.410010 


CATEGORY 字 上 段 舍 有 一 组 以 逗号 分 隔 的 代 
码 ， 这 些 代码 表示 消息 的 类 型 


In [97]: data['CATEGORY '][:6] 

Out[97] : 

0 1. Urgences | Emergency, 3. Public Health, 
1 1. Urgences | Emergency, 2. Urgences logistiques 
2 2. Urgences logistiques | Vital Lines, 8. Autre | 
3 1. Urgences | Emergency, 
4 1. Urgences | Emergency, 
5 5e. Communication lines down, 
N 


(OOO PO 


ame: CATEGORY 


只 要 仔细 观察 一 下 上 面 这 个 数据 摘要 ， 束 能 
发 现 有 些 分 类 信息 缺失 了 ， 因 此 我 们 需要 丢弃 这 


些 数 据点 。 上 此外， 调用 describe 还 能 发 现 数据 中 存 
在 一 些 异 和 常 的 地 理 位 置 : 


In [98]: data.describe() 
Out[98]: 

Serial LATITUDE LONGITUDE 
count 3593.000000 3593.000000 3593.000000 
mean 2080 .277484 18.611495 -72.322680 
std 1171.100360 0.738572 3.650776 
min 4.000000 18.041313 -74.452757 
25% 1074.000000 18.524070 -72.417500 
50% 2163 .000000 18.539269 -72.335000 
75% 3088 .000000 18.561820 -72.293570 
max 4052 .000000 50.226029 114.174287 


消除 第 误 位 置信 息 并 移 除 喘 失 分 类 信息 十 一 
件 很 商 单 的 事情 : 
In [99]: data = data[(data.LATITUDE > 18) & (data.LATITUDE < 
本 (data.LONGITUDE > -75) & (data.LONGITUDE 
人 & data.CATEGORY .notnull()] 
现在 ， 我 们 想 根据 分 类 对 数据 做 一 些 分 析 或 
图 形 化 工作 ， 但 征 各 个 分 类 字段 中 可 能 舍 有 多 个 
分 类 。 此 外 ， 各 个 分 类 信息 不 仅 有 一 个 编 僻 ， 还 
有 一 个 英文 名 称 (可 能 还 有 一 个 法 语 名 称 ) 。 
此 需要 对 数据 做 一 些 规整 化 处 理 。 上 有 先 ， 我 编写 
了 两 个 画 数 5， 一 个 用 于 获取 所 有 分 类 的 列 
表 ， 丸 一 个 用 于 将 各 个 分 类 信息 拆 分 为 编码 和 天 
语 名 称 : 


def to_cat_list(catstr): 
stripped = (x.strip() for x in catstr.split(',")) 
return [x for x in stripped if x] 


def get all categories(cat_ series): 
cat_sets = (set(to cat_ list(x)) for x in cat_series) 
return sorted(set.union(*cat_sets)) 


def get_english(cat): 
code, names = cat.split('.') 
if '|' in names: 
names = names.split(" | ')[i1] 
return code, names.strip() 


你 可 以 测试 一 下 get_english 琴 数 是 否 工 作 正 
第 : 
In [101]: get_english('2. Urgences logistiques | Vital 


Lines') 
Out[101]: ('2', 'Vital Lines') 


接 下 来 ， 我 做 了 一 个 将 编码 跟 名 称 映 映 起 来 
的 字典 ， 这 是 因为 我 们 等 会 儿 要 用 编码 进行 分 
析 。 后 面 我 们 在 修饰 图 表 时 也 会 用 到 这 个 ( 注 
意 ， 这 里 用 的 是 生成 融 表 达 式 ， 而 不 是 列表 推导 
式 ) : 
In [102]: all cats = get all categories(data.CATEGORY) 


# 生成 器 表达 式 
In [103]: english mapping = dict(get_english(x) for x in 
all_ cats) 


In [104]: english_ mapping['2a'] 
Out[104]: 'Food Shortage' 


In [105]: english_ mapping['6c'] 
Out[105]: 'Earthquake and aftershocks' 


根据 分 类 选取 记录 的 方式 有 很 多 ， 其 中 之 一 


是 添加 指标 (或 呈 变 量 ) 列 ， 每 个 分 类 一 列 。 为 
此 ， 我 们 首先 抽取 出 唯一 的 分 类 编码 ， 并 构造 一 
A 0 ( 列 为 分 类 编码 ， 索 引 跟 data 的 


» 


def get_code(seq): 
return [x.split('.')[0] for x in seq if x] 


all_codes = get_ code(all cats) 

code_index = pd.Index(np.unique(all codes)) 

dummy_frame = DataFrame(np.zeros((len(data), 

len(code_index))), index=data.index, 
columns=code_index) 


如 于 一 切 顺 利 ，dummy_frame 应 该 是 这 样 


In [107]: dummy_frame.ix[:, :6] 
Out[107]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3569 entries, 0 to 3592 
Data columns: 


1 3569 non-null values 
1a 3569 non-null values 
1b 3569 non-null values 
1C 3569 non-null values 
1d 3569 non-null values 
2 3569 non-null values 


dtypes: float64(6) 


你 可 能 已 经 想到 了 ， 现 在 应 该 将 各 行 中 适当 


的 项 设置 为 1， 然 后 再 与 data 进 行 连接 ; 


for row cat in zip(data.index，data,CATEGORY ) : 
codes = get_code(to cat_ list(cat)) 


dummy_frame.ix[row, codes] = 1 


data = data.join(dummy_frame.add_prefix('category_')) 


现在 data 有 了 一 些 狐 的 列 : 


In [109]: data.ix[:, 10:15] 

Out[109]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3569 entries, 0 to 3592 
Data columns: 


category_1 3569 non-null values 
category_1a 3569 non-null values 
category_1b 3569 non-null values 
category_1c 3569 non-null values 


category_1d 3569 non-null values 
dtypes: float64(5) 


授 下 来 开始 画图 吧 ! 由 于 这 古 空间 坐标 数 

据 ， 因 此 我 们 硕 望 把 数据 绘制 在 海地 的 地 图 上 。 
basemap 工 具 集 

(http://matplotlib.github.com/basemap, matplotlib 
的 一 个 插件 ) 使 得 我 们 能 够 用 Python 在 地 图 上 绘 
制 2D 数 据 。basemap 提 供 了 许多 不 同 的 地 球 投影 以 
及 一 种 将 地 球 上 的 经 纬度 坐标 投影 转换 为 二 维 
matplotlib 图 的 方式 。 经 过 一 过 又 一 遇 地 芝 试 ， 我 
编写 了 下 面 这 个 函数 ， 它 可 以 绘制 出 一 张 何 单 的 
黑 日 海地 地 图 : 


from mpl_toolkits.basemap import Basemap 
import matplotlib.pyplot as pit 


def basic haiti map(ax=None, lllat=17.25, urlat=20.25, 
11lon=-75, urlon=-71): 
# 创建 极 球面 投影 的 Basemap 实 例 。 


m = Basemap(ax=ax, projection='stere', 
lon_0=(urlon + lllon) / 2, 
lat 0=(urlat + lllat) / 2, 
llcrnrlat=lllat, urcrnrlat=urlat, 
llcrnrlon=1lllon, urcrnrlon=urlon, 
resolution="'f"') 

# 绘制 海岸 线 、 州 界 、 国 界 以 及 地 图 边界 。 

m.drawcoastlines() 

m.drawstates() 

m.drawcountries() 

return m 


现在 的 问题 是 ， 如 何 让 返回 的 这 个 Basemap 对 
象 知道 该 怎样 将 坐标 转换 到 画布 上 。 我 编写 了 下 
面 的 代码 来 绘制 数据 。 对 于 每 一 个 分 类 ， 我 在 效 
据 集中 找到 了 对 应 的 坐标 ， 0 
绘制 一 个 Basemap， 和 转换 坐标 ， 然 后 通过 Basemap 
的 plot 方 法 绘制 点 : 


fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 10)) 
fig.subplots_adjust(hspace=0.05, wspace=0.05) 


to_plot = ['2a', '1', '3c', '7a'] 
lllat=17.25; urlat=20.25; 1]1llon=-75; urlon=-71 
for code, ax in zip(to_plot, axes.flat): 
m = basic haiti map(ax, lllat=lllat, urlat=urlat, 
1llon=1lllon, urlon=urlon) 
cat_data = data[data[ 'category_%s' % code] == 1] 


# 计算 地 图 的 投影 坐标 。 
x, y = m(cat_data.LONGITUDE, cat_data .LATITUDE) 


m.plot(x, y, 'k.', alpha=0.5) 
ax.set_title('%s: %s' % (code, english mapping[code])) 


最 终结 果 如 图 8-24 所 示 。 


图 8-24: 海地 地 震 的 4 类 数据 


从 图 中 可 以 看 出 ， 大 部 分 数据 都 集中 在 人 口 
最 山 密 的 城市 一 一 太 了 于 港 。basemap 还 可 以 车 加 来 
目 shapefile 的 地 图 数据 。 我 先 下 载 了 一 个 市 有 太子 
港 道 路 的 shapefile (参见 
http://cegrp.cga.harvard.edu/haiti/? 
q=resources_data) 。Basemap 对 象 有 一 个 韭 常 方便 
HJreadshapefile 方 法 ， 于 是 在 解压 完 道路 数据 文件 
之 后 ， 我 只 在 代码 中 加 以 下 几 行 就 可 以 了 : 


shapefile path = 'ch08/PortAuPrince Roads/PortAuPrince_ Roads" 
m.readshapefile(shapefile path, 'roads') 


在 对 经 纬度 边界 进行 了 一 番 尝 斌 之后， 我 做 
了 一 张 反映 食物 短缺 情况 的 图 斤 ， 如 图 8-25 所 
示 “。 


Food shortages reported in Port-au-Prince 


图 8-25， 海地 大 地 震 期 间 ， 太 子 港 的 食物 短 钠 报 
译注 5， 读者 就 当做 两 个 吧 。 


Python 图 形 化 工具 生态 系统 


用 Python 创建 图 形 的 方式 非常 多 (根本 罗列 
不 完 ) 。 除 了 开源 库 ， 商 业 库 也 不 少 。 


本 书 主 要 涉及 的 是 matplotlib， 因 为 它 是 
Python 领域 中 使 用 最 广泛 的 绘图 工具 。 虽然 
matplotlib 是 Python 科学 计算 生态 系统 的 重要 组 成 
部 分 ， 但 它 在 统计 图 表 的 创建 和 展示 方面 仍然 有 
许多 缺点 。 MATLAB 用 户 可 能 会 对 matplotlib 感 到 
熟悉 ， 而 R 用 户 〈 尤 其 是 使 用 ggplot2 和 trellis 的 那 
些 ) 可 能 束 会 比较 郁 半 了 (至 少 目 前 是 ) 。 虽 然 
matplotlib 可 以 为 Web 应 用 创建 漂 腕 的 图 表 ， 但 这 
通常 需要 耗费 大 量 的 精力 ， 因 为 它 原 本 是 为 印刷 
而 设计 的 。 移 不 管 美 不 美观 ， 至 少 它 足以 应 付 大 
部 分 需求 。 在 pandas 中 ， 我 跟 其 他 开发 人 员 一 直 都 
中 的 大 部 分 绘图 工作 变 得 更 人 简 

J 办法。 


广泛 使 用 的 图 形 化 工具 很 多 。 这 里 我 只 列举 
儿 个 ， 但 建议 你 研究 一 下 整个 生态 系统 。 


Chaco 


Chaco (http://code.enthought.com/chaco/) 是 
由 Enthought 开 发 的 一 个 绘图 工具 包 ， 它 既 可 以 绘 
制 送 仿 图 又 可 以 生成 交互 式 图 形 ， 如 图 8-26 所 
示 。 它 非 肖 适 合用 复 洒 的 图 形 化 方式 表达 数据 的 
内 部 关系 。 跟 matplotlib 相 比 ，Chaco 对 交互 的 文 持 
要 好 得 多 ， 而 且 渔 染 速度 很 快 。 如 采 要 创建 交互 
式 的 GUI 应 用 程序 ， 它 确实 是 个 不 错 的 选择 。 


图 8-26: Chaco 图 示例 


mayavl 


mayavi 项 目 (由 Prabhu Ramachandran、Gal 
Varoquaux 等 人 开发 ) 是 一 个 基于 开源 C++ 图 形 库 
VTK 有 的 3D 图 形 工 具 包 。 跟 matplotlib 一 样 ，mayavi 


也 能 集成 到 IPython 以 实现 交互 式 使 用 。 通 过 鼠标 
和 键 型 操作， 图 形 可 以 被 平移 、 旋 转 、 缩 放 。 在 
第 12 曹 中， 我 用 mayavi 制 作 了 一 张 有 天 广播 的 插 
。 我 没有 给 出 任何 调用 mayavi 的 代码 ， 但 你 可 
以 在 网 上 找到 很 多 文档 和 示例 。 我 相信 它 能 成 为 
WebGL 《以 及 相关 产品 ) 的 替代 品 ， 虽 然 其 生成 
的 图 形 很 难以 交互 的 形式 共享 。 


其 他 库 


当然 ，Python 领 域 中 还 有 许多 其 他 的 图 形 化 

库 和 应 用 程序 : PyQwt、Veusz、gnuplot-py、 
biggles 等 。 我 就 曾经 见 过 PyQwt 个 用 在 基于 Qt 框架 

(PyQt) 的 GUI 应 用 程序 中 。 许 多 库 都 还 在 不 断 
地 发 展 (有 些 已 经 被 用 在 大 型 应 用 程序 当中 
了 ) 。 近 几 年 来 ， 我 发 现 了 一 个 总 体 趋势 : 大 部 
分 库 都 在 回 基 于 Web 的 技术 发 展 ， 并 逐渐 远离 果 
面 图 形 技 术 。 下 面 我 要 吏 这 个 问题 多 说 几何 。 


图 形 化 工具 的 未 来 


基于 Web 技 术 (比如 JavaScript) 的 图 形 化 是 
必然 的 发 展 趋势 。 军 无 疑 回 ， 许 多 基于 Flash 或 
JavaScript 的 前 仿 或 交互 式 图 形 化 工具 已 经 出 现 了 
很 多 年 。 而 旦 类 似 的 新 工具 包 (如 d3.js 及 其 分 支 
项 目 ) 一 直 都 在 不 断 涌现 。 相 比 之 下 ， 非 Web 式 


的 图 形 化 开发 工作 在 近 几 年 中 减 慢 了 许多 。 
0 
是 如 此 。 


于 是 ， 开 发 方 同 束 变 成 了 实现 数据 分 析 和 准 
备 工具 (如 pandas) 与 Web 浏 览 器 之 间 更 为 紧密 的 
集成 。 我 布 户 这 个 思路 今后 能 成 为 Python 以 及 非 
Python 用 户 之 间 旦 有 成 效 的 协作 手段 。 


第 9 草 ”数据 聚合 与 分 组 运算 


对 数据 集 进 行 分 组 并 对 各 组 应 用 一 个 函数 
(无 论 是 聚合 还 是 转换 ) ， 这 是 数据 分 析 工 作 中 
的 重要 环 帮 。 在 将 数据 集 准 备 好 之 后 ， 通 种 的 任 
务 驳 征 计算 分 组 统计 或 生成 透视 表 。pandas 近 供 
了 一 个 有 灵活 高 效 的 gruopby 功 能 ， 它 使 你 能 以 一 种 
0 ` 切 块 、 摘 要 等 操 


关系 型 数据 库 和 SQL (Structured Query 
Language， 结 构 化 查询 语言 ) 能 够 如 此 流行 的 原 
因 之 一 就 是 其 能 够 方便 地 对 数据 进行 连接 、 过 
滤 、 转 换 和 聚合 。 但 是 ， 像 SQL 这 样 的 查询 语言 
所 能 执行 的 分 组 运算 的 种 类 很 有 限 。 在 本 章 中 你 
将 会 看 到 ， 由 于 Python 和 pandas 强 大 的 表达 能 
力 ， 我 们 可 以 执行 复杂 得 多 的 分 组 运算 (利用 任 
何 可 以 接受 pandas 对 象 或 NumPy 数 组 的 函数 ) 。 
在 本 章 中 ， 你 将 会 学 到 : 


根据 一 个 或 多 个 键 (可 以 是 画 数 、 数 组 或 
DataFrame 列 名 ) 拆 分 pandas 对 象 。 


计算 分 组 摘要 统计 ， 如 计数 、 平 均值 、 标 准 
差 ， 或 用 户 自 定义 画 数 。 


:对 DataFrame 的 列 应 用 各 种 各 样 的 函数 。 


应 用 组 内 转换 或 其 他 运算 ， 如 规格 化 、 线 性 
回归 、 排 名 或 选取 子 集 等 。 


计算 透视 表 或 交叉 表 。 
:执行 分 位 数 分 析 以 及 其 他 分 组 分 析 。 
注意 : 对 时 间 数 据 的 聚合 (groupby 的 特殊 


用 法 之 一 ) 也 称 作 重 采样 (resampling) ， 本 书 将 
在 第 10 革 中 单独 对 其 进行 讲解 。 


GroupBy 拉 术 


Hadley Wickham (许多 热门 R 语 言 包 的 作者 ) 
创造 了 一 个 用 于 表示 分 组 运算 的 术语 "split-apply- 
combine”( 拆 分 一 应 用 一 合并 ) ， 我 觉得 这 个 词 
很 好 地 摘 述 了 整个 过 程 。 分 组 运算 的 第 一 个 阶 
段 ，pandas 对 象 \ 无 论 是 Series、DataFrame 还 是 其 
他 的 ) 中 的 数据 会 根据 你 所 提供 的 一 个 或 多 个 键 
被 拆 分 (split) 为 多 组 。 拆 分 操作 是 在 对 象 的 特定 
轴 上 技 行 的 。 例 如 ，DataFrame 可 以 在 其 行 

(axis=0) 或 列 (axis=1) 上 进行 分 组 。 然 后 ， 将 
一 个 函数 应 用 (apply) 到 各 个 分 组 并 产生 一 个 新 
值 。 最 后 ， 所 有 这 些 函 数 的 执行 结 采 会 家 合并 

(combine) 到 最 终 的 结果 对 象 中 。 结 果 对 和 象 的 形 
式 一 般 取 决 于 数据 上 所 执行 的 操作 。 图 9-1 大 致 说 
明了 一 个 简单 的 分 组 聚合 过 程 。 


数据 
oon 
加 古国 求 和 
ij 图 = 时 
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四 四 


图 9-1: 分 组 聚合 演示 
分 组 键 可 以 有 多 种 形式 ， 且 类 型 不 必 相 同 : 
-列表 或 数组 ， 其 长 度 与 待 分 组 的 轴 一 样 。 
表示 DataFrame 某 个 列 名 的 值 。 


字典 或 Series， 给 出 每 分 组 轴 上 的 值 与 分 组 名 
之 间 的 对 应 天 系 。 


时 ' 丽 效 ， 用 于 处 理 轴 索 引 或 索引 中 的 各 个 标 


人 六 


注意 ， 后 三 种 都 只 是 快捷 方式 而 已 ， 其 最 终 
目的 仍然 是 产生 一 组 用 于 拆 分 对 和 象 鸭 值 。 如 采 视 
得 这 些 东 西 看 起 来 很 抽象 ， 不 用 担心 ， 我 将 在 本 
草 中 给 出 大 量 有 天 于 此 的 示例 。 首 先 来 看 看 下 面 
0 (以 DataFrame 的 形 
工 : 


In [13]: df = DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'l], 
A 'key2' : ['one', 'two', 'one', 

'two', 'one'], 
a 'datai' : np.random.randn(5), 

'data2' : np.random.randn(5)}) 


In [14]: df 
Out [14] 

datal data2 key1 Key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


假设 你 想 要 按 key1 进 行 分 组 ， 并 计算 data1 列 
的 平均 值 。 实 现 该 功能 的 方式 有 很 多 ， 而 我 们 这 
里 要 用 的 是 : 访问 datal1， 并 根据 key1 调 用 
groupby: 
In [15]: grouped = df['data1i'].groupby(df['key1’'|]) 
In [16]: grouped 
Out[16]: <pandas.core.groupby.SeriesGroupBy at Ox2d78b10> 
这 量 grouped 古 一 个 GroupBy 对 象 。 它 实际 上 
还 没有 进行 任何 计算 ， 只 是 谷 有 一 些 有 大分 组 键 


df[key1] 的 中 间 数 据 而 已 。 换 名 话说 ， 该 对 象 已 经 
有 了 接 下 来 对 各 分 组 执行 运算 所 需 的 一 切 信息 。 
例如 ， 我 们 可 以 调用 GroupBy 的 mean 方 法 来 计算 
分 组 平均 值 : 

In [17]: grouped.mean() 

ey 


a 0.746672 
b -0.537585 


稍 后 我 将 详细 讲解 .mean0 的 调用 过 程 。 这 里 
最 重要 的 是 ， 数 据 (Series) 根据 分 组 键 进行 了 聚 
合 ， 产 生 了 一 个 新 的 Series， 其 索引 为 key1 列 中 的 
唯一 值 。 之 所 以 结 采 中 索引 的 名 称 为 key1， 是 因 
为 原始 DataFrame 的 列 df[key1] 豆 叫 这 个 名 字 。 


人 吏 会 得 到 不 同 


In [18]: means = df['data1i'].groupby([df['key1'], 
df['key2']]).mean() 


In [19]: means 


Out[19] : 

key1 key2 

a one 0.880536 
two 0.478943 

b one -0.519439 
two -0.555730 


这 里 ， 我 通过 两 个 键 对 数据 进行 了 分 组 ， 得 
到 的 Series 具 有 一 个 层次 化 索引 (由 唯一 的 键 对 组 


In [20]: means.unstack() 
Out[20]: 

key2 one two 
key1 

a 0.880536 0.478943 
b -0.519439 -0.555730 


在 上 面 这 些 示例 中 ， 分 组 键 均 为 Series。 实 际 
上 ， 分 组 键 可 以 是 任何 长 度 适 当 的 数组 : 


In [21]: states = np.array(['Ohio'， 'California', 
California'， 'Ohio', 'Ohio']) 


In [22]: years = np.array([2005, 2005, 2006, 2005, 2006]) 


In [23]: df['data1'].groupby([states, years]).mean() 


Out[23]: 

California 2005 0.478943 
2006 -0.519439 

Ohio 2005 -0.380219 
2006 1.965781 


此 外 ， 你 还 可 以 将 列 名 “可 以 是 字符 串 、 数 
字 或 其 他 Python 对 象 ) 用 作 分 组 键 : 


In [24]: df.groupby('key1').mean() 


Out[24] : 

datal data2 
key1 
a 0.746672 0.910916 
b -0.537585 0.525384 


In [25]: df.groupby(['key1i', 'key2']).mean() 
Out[25]: 
datal data2 
key1 key2 
a one 0.880536 1.319920 


two 0.478943 0.092908 
b one -0.519439 0.281746 
two -0.555730 0.769023 


你 可 能 已 经 注意 到 了 ， 在 执行 
df.groupby(key1).mean0 时 ， 结 果 中 没有 key2 列 。 
这 是 因为 df['key2"] 不 十 数值 数据 〈 俗 称 “ 厅 烦 
列 ”) ， 所 以 被 从 结果 中 排除 了 。 默 认 情 况 下 ， 所 
有 数值 列 都 会 被 聚合 ， 虽然 有 时 可 能 会 被 过 滤 为 
一 个 子 集 ( 稍 后 就 会 讲 到 ) 


论 你 准备 拿 groupby 做 什么 ， 都 有 可 能 会 
、 它 可 以 返回 一 个 舍 有 分 组 
大 小 的 Series: 


In [26]: df.groupby(['key1'， 'key2']).sizel() 
Out[26] : 
key1 key2 
a 


b one 


PPRN 


警告 : 到 编写 本 书 时 为 止 ， 分 组 键 中 的 任何 
缺失 值 都 会 家 排除 在 结果 之 外 。 在 你 该 到 这 里 的 
时 候 ， 说 不 定 就 已 经 有 一 个 选项 可 以 使 结果 中 包 
含 NA 组 了 译注 1 。 


对 分 组 进行 送 代 


GroupBy 对 象 文 持 适 代 ， 可 以 产生 一 组 二 元 元 
组 《由 分 组 名 和 数据 块 组 成 ) 。 看 看 下 面 这 个 简 
单 的 数据 集 : 
In L270d: for name, group in df.groupby('key1'): 


print name 
print group 


a 

datal data2 key1 Key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
4 1.965781 1.246435 a one 
b 


datal data2 key1 key2 
-0.519439 0.281746 b one 
-0.555730 0.769023 b two 


对 于 多 重 键 的 情况 ， 元 组 的 第 一 个 元 素 将 会 
是 由 键 值 组 成 的 元 组 
In [28]: for (k1, k2), group in df.groupby(['key1', "key2 ]): 


print ki, k2 
print group 


(se) 


a one 

datal data2 key1 Key2 
0 -0.204708 1.393406 a one 
4 1.965781 1.246435 a one 
a two 

datal data2 key1 Key2 
1 0.478943 0.092908 a two 
b one 

datal data2 key1 key2 
2 -0.519439 0.281746 b one 
b two 

datal data2 Key1 key2 
3 -0.55573 0.769023 b two 


然 ， 你 可 以 对 这 些 数 据 厂 段 似 任 何 控 作 。 
有 不作 可 用 会 舍得 有 用 的 运算 : 将 这 些 数 据 厂 
段 做 成 一 个 字 


In [29]: pieces = dict(1list(df.groupby('key1'))) 


In [30]: pieces['b'] 
Out[30]: 

datal data2 key1 key2 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 


groupby 默 认 是 在 axis=0 上 进 和 T1040 通过 
设置 也 可 以 在 其 他 任何 轴 上 进行 分 组 。 拿 上 面 例 
i, 我 们 可 以 根据 dtype 对 列 进 行 
组 : 


In [31]: df.dtypes 
Out[31] : 

datal float64 
data2 float64 
key1 object 
key2 object 


In [32]: grouped = df.groupby(df.dtypes, axis=1) 
In [33]: dict(list(grouped)) 
Out[33]: 
{dtype( 'flLoat64 ' ) : datal data2 
0 -0.204708 1.393406 
1 0.478943 0.092908 
2 -0.519439 0.281746 
3 -0.555730 0.769023 
4 1.965781 1.246435, 
dtype('object'): key1 key2 


0 a one 
1 a two 
2 b one 
3 b two 
4 a one} 


选取 一 个 或 一 组 列 


对 于 由 DataFrame 广 生 的 GroupBy 对 象 ， 如 果 
用 一 个 (单个 字符 串 ) 或 一 组 (字符 串 数组 ， 列 
名 对 其 进行 索引 ， 就 能 实现 选取 部 分 列 进行 聚合 
的 目的 。 也 就 是 说 : 


df .groupby('key1')['data1i'] 
df .groupby('key1')[['data2']] 


征 以 下 代码 的 语法 糖 ; 


df[ 'datal |].groupby(df[ key1 |]) 
df[['data2']].groupby(df['key1']) 


尤其 对 于 大 数据 集 ， 很 可 能 只 需要 对 部 分 列 
进行 聚合 。 例 如 ， 在 前 面 那个 数据 集中 ， 如 村 只 
需 计 算 data2 列 的 平均 值 并 以 DataFrame 形 式 得 到 结 
果 ， 我 们 可 以 编写 : 


In [34]: df.groupby(['key1i', 'key2'])[['data2']].mean() 
Out[34]: 


data2 
key1 key2 
a one 1.319920 
two 0.092908 
b one 0,.281746 


two 0.769023 


这 种 索引 操作 所 返回 的 对 象 是 一 个 已 分 组 的 
DataFrame (如 果 传 入 的 是 列表 或 数组 ) 或 已 分 组 
的 Series (如 果 传 入 的 是 标量 形式 的 单个 列 名 ) : 


In [35]: Ss_grouped = df.groupby(['key1', 'key2']1)['data2'] 
In [36]: s_grouped 
Out[36]: <pandas.core.groupby.SeriesGroupBy at Ox2e215d0> 
In [37]: s_grouped.mean() 
Out[37]: 
key1 key2 
a one 1.319920 
two 0 .092908 
b one 0.281746 
two 0 .769023 
Name: data2 


通过 字典 或 Series 进 行 分 组 


除数 组 以 外 ， 分 组 信息 还 可 以 其 他 形式 存 
在 。 来 看 另 一 个 示例 DataFrame: 


In [38]: people = DataFrame(np.random.randn(5, 5), 
a columns=['a', 'b", 
'e'], 


index=['Joe', 'Steve', 'Wes', 


'Jim', "Travis ']) 


In [39]: people.ix[2:3，['b'，'c']] = np.nan # 添加 几 个 NA 值 
In [40]: people 
Out[40]: 

a b ee d e 
Joe 1.007189 -1.296221 0.274992 0.228913 1.352917 
Steve 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
Wes -0.539741 NaN NaN -1.021228 -0.577087 
Jim 0.124121 0.302614 0.523772 0.000940 1.343810 
Travis -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


假设 已 知 列 的 分 组 关系 ， 并 希望 根据 分 组 计 


算 列 的 总 计 : 


In [41]: mapping = {'a': 'red', 'b': 'red', 'c': 'blue', 
Po 'd': 'blue', 'e': 'red', 'f' :; 'orange'} 


现在 ， 只 需 将 这 个 字典 传 给 groupby 即 可 : 


In [42]: by_column = people.groupby(mapping, axis=1) 


In [43]: by_column.sum() 


Out[43]: 

blue red 
Joe 0.503905 1.063885 
Steve 1.297183 -1.553778 
Wes -1.021228 -1.116829 
Jim 0.524712 1.770545 
Travis -4.230992 -2.405455 


Series 也 有 同样 的 功能 ， 它 可 以 被 看 做 一 个 回 
定 大 小 的 映射 。 对 于 上 面 那个 例子 ， 如 采用 Series 
作为 分 组 键 ， 则 pandas 会 检查 Series 以 确保 其 索引 
跟 分 组 办 是 对 齐 的 : 


In [44]: map_series = Series(mapping) 


In [45]: map_series 


Out[45] : 
a red 
b red 
C blue 
d blue 
e red 
f orange 
In [46]: people.groupby(map_series, axis=1).count() 
Out[46]: 

blue red 
Joe 2 3 
Steve 2 3 
Wes 1 2 
Jim 2 3 
Travis 2 3 


通过 函 效 进行 分 组 


相 较 于 字典 或 Series，Python 函 数 在 定义 分 组 
映射 关系 时 可 以 更 有 创意 且 更 为 抽象 。 任 何 被 当 
做 分 组 键 的 本 效 都 会 在 各 个 索引 信 上 被 调用 一 
次 ， 其 返回 值 驶 会 伞 用 作 分 组 和 名称。 有 具体 点 说 ， 
以 上 一 小 节 的 示例 DataFrame 为 例 ， 其 索引 | 值 为 人 
的 名 字 。 假 设 你 希望 根据 人 名 的 长 度 进行 分 组 ， 
虽然 可 以 求 取 一 个 字符 串 长 度数 组 ， 但 其 实 仅仅 
传 入 len 函 数 束 可 以 了 : 


In [47]: people.groupby(len).sum() 
Out[47] : 

a b C d e 
3 0.591569 -0.993608 0.798764 -0.791374 2.119639 
5 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
6 -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


将 函数 跟 数 组 、 列 表 、 了 字典 、Series 混 合 使 用 
0 上 厦 ， 因 为 任何 东西 最 终 部 会 补 转 换 为 数 
组 : 


In [48]: key_list = ['one', 'one', 'one', 'two', 'two'| 


In [49]: people.groupby([len, key_list]).min() 
Out[49]: 
a b C d e 
3 one -0.539741 -1.296221 0.274992 -1.021228 -0.577087 
two 0.124121 0.302614 0.523772 0.000940 1.343810 
5 one 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
6 two -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


根据 索引 级 别 分 组 


层次 化 索引 数据 集 最 方便 的 地 方 承 在 于 它 能 
够 根据 索引 级 别 进 行 聚合 。 要 实现 该 目的 ， 通 过 
level 天 键 字 传 入 级 别 编号 或 名 称 即 可 : 


In [50]: columns = pd.MultiIndex.from arrays([['US', 'US', 


US JP. "IP"; 
3]], names=['cty', 


In [51]: hier df = 
columns=columns) 


In [52]: hier_df 
Out[52] : 


cty US 
tenor 1 
0 0.560145 - 
-2.359419 - 
过 0.286350 
3 0.069877 


In [53]: hier_df.groupby(level="'cty' 


Out[53] 

cty JP US 

0 2 3 

1 2 3 

2 2 3 
2 


©OOOoOPpFr 


'tenor']) 


DataFrame(np.random. 


3 
265934 
199543 
377984 
246674 


5 


0.119827 - 
-1.541996 
-0.753887 
-0 .011862 


1 
-0. 
0 
1 


[1, 3, 5, 1, 


randn(4, 5), 


JP 
1 3 


.063512 0.332883 


970736 -1.307030 


.331286 1.349742 
.004812 1.327195 


; axis=1).count() 


3 3 
译 广 1: 翻译 本 书 过 程 中 仍然 没有 。 


效 据 聚合 


对 于 聚合 ， 我 指 的 是 任何 能 够 从 数组 产生 标 
量 值 的 数据 转换 过 程 。 之 前 的 例子 中 我 已 经 用 过 
一 些 ， 比 如 mean、count、min 以 及 sum 等 。 你 可 能 
想 知 道 在 GroupBy 对 象 上 调用 mean0 时 究竟 发 生 了 
什么 。 许 多 篆 见 的 聚合 运算 (如 表 9-1 所 示 ) 都 有 
台地 计算 数据 集 统 计 信 息 的 优化 实现 。 然 而 ， 并 
不 是 只 能 使 用 这 些 方法 。 你 可 以 使 用 目 己 发 明 的 
聚合 运算 ， 还 可 以 调用 分 组 对 象 上 已 经 定义 好 的 
任何 方法 。 例 如 ，quantile 可 以 计算 Series 或 
DataFrame 列 的 样本 分 位 数 富 2. 


In [54]: df 
Out[54] : 

datal data2 key1 key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


In [55]: grouped = df.groupby('key1') 


In [56]: grouped['data1'].quantile(0.9) 


Out[56]: 

key1 

a 1.668413 
b -0.523068 


虽然 quantile 并 没有 明确 地 实现 于 GroupBy， 
但 它 是 一 个 Series 方 法 ， 所 以 这 里 是 能 用 的 。 实 际 


上 上 ，GroupBy 会 高 鸡 地 对 Series 进 行 切 片 ， 然 后 对 
各 厂 调 用 pe quantile(0.9)， 最 后 将 这 些 结果 组 装 
成 最 终结 


如 果 要 使 用 你 目 己 的 聚合 贸 数 ， 只 需 将 其 传 
入 aggregate 或 agg 方 法 即 可 : 


In [57]: def peak_to_peak(arr): 
i return arr.max() - arr.min() 


In [58]: grouped.agg(peak_to_peak) 
Out[58] : 


datal data2 
Key1IL 
a 2.170488 1.300498 
b 0.036292 0.487276 


主意 ， 有 些 方法 (如 describe) 也 是 可 以 用 在 
人 即使 严格 来 讲 ， 它 们 并 非 聚 合 运算 : 


In [59]: grouped.describe'( ) 
Out[59] : 

datal data2 
key1 
a count 3.000000 3.000000 
mean 0.746672 0.910916 
std 1.109736 0.712217 
min -0.204708 0.092908 


25% 0.137118 0.669671 
50% 0.478943 1.246435 
75% 1.222362 1.319920 
max 1.965781 1.393406 
b count 2.000000 2.000000 
mean -0.537585 0.525384 
std 0.025662 0.344556 
min -0.555730 0.281746 
25% -0.546657 0.403565 
50% -0.537585 0.525384 


75% -0.528512 0.647203 
max -0.519439 0.769023 


在 后 面 关 于 分 组 级 运算 二 二 3 和 转换 的 那 一 节 
中 ， 我 将 详细 说 明 这 到 底 是 怎么 回 事 。 
注意 可 能 你 已 经 注意 到 了 ， 自 定义 聚合 画 
数 要 比 表 9-1 中 那些 经 过 优化 的 函数 慢 得 多 。 这 是 
因为 在 构造 中 间 分 组 数据 块 时 存在 非常 大 的 开销 
( 画 数 调用 、 数 据 重 排 等 ) 。 


表 9-1: 经 过 优化 的 groupby 玫 至 * 的 方法 


函数 名 说 明 

count 分 组 中 非 NA 值 的 数量 

sum 非 NA 值 的 和 

mean 非 NA 值 的 平均 值 

median 非 NA 值 的 算术 中 位 数 

std、var 无 偏 (分 母 为 n - 1) 标准 差 和 方差 
min、max 非 NA 值 的 最 小 值 和 最 大 值 

prod 非 NA 值 的 积 

first、last 第 一 个 和 最 后 一 个 非 NA 值 


译注 4: 这 里 应 该 是 “经 过 优化 的 GroupBy 的 方 
法 ” 原文 有 误 Oo 


为 了 说 明 一 些 更 高 级 的 聚合 功能 ， 我 将 使 用 
一 个 有 关 和 餐馆 小 费 的 数据 集 。 我 是 在 R 语 言 的 
reshape2 包 中 得 到 该 数据 集 的 〈 可 以 在 本 书 的 
GitHub 库 中 找到 ) 。 它 最 初出 现 于 Bryant 和 Smith 


在 1995 年 编写 的 一 本 有 天 商 业 统计 的 书 中 。 通 过 
read_csv 将 其 加 载 之 后 ， 我 添加 了 一 个 表示 小 费 比 
例 的 列 tip_pct。 


In [60]: tips = pd.read csv('ch08/tips.csv') 


# 添加 “小 费 占 总 额 百 分 比 “ 的 列 
In [61]: tips['tip_pct'] = tips['tip'] / tips['total bill'] 


In [62]: tips[:6] 


Out[62]: 

total_ bill tip sex smoker day time size 
tip_pct 
0 16.99 1.01 Female False Sun Dinner 2 
0.059447 
1 10.34 1.66 Male False Sun Dinner 3 
0.160542 
2 21.01 3.50 Male False Sun Dinner 3 
0.166587 
3 23.68 3.31 Male False Sun Dinner 2 
0.139780 
4 24.59 3.61 Female False Sun Dinner 4 
0.146808 
5 25.29 4.71 Male False Sun Dinner 4 
0.186240 


面 同 列 的 多 函数 应 用 


我 们 已 经 看 到 ， 对 Series 或 DataFrame 列 的 聚 
合 运 算 其 实 就 是 使 用 aggregate 〈 使 用 目 定 义 函 
数 ) 或 调用 诸如 mean、std 之 类 的 方法 。 然 而， 你 
可 能 布 户 对 不 同 的 列 使 用 不 同 的 聚合 函数 ， 或 一 
次 应 用 多 个 函数 。 其 实 这 事 也 好 办 ， 我 将 通过 一 
些 示 例 来 进行 讲解 。 首 和 完 ， 我 根据 sex 和 smoker 对 
tips 进 行 分 组 : 


In [63]: grouped = tips.groupby(['sex', 'smoker']) 
注意 ， 对 于 表 9-1 中 的 那些 朱 述 统计 ， 可 以 将 
\[ ,Tz 人 y 
国 数 名 以 字符 绅 的 形式 传人 : 
In [64]: grouped_pct = grouped[ 'tip_pct '] 


In [65]: grouped_pct.agg('mean ') 


Out[65] : 

SeX smoker 

Female False 0.156921 
True 0.182150 

Male False 0.160669 
True 0.152771 


Name: tip_pct 


如 琳 传 入 一 组 函数 或 钞 数 名 ， 得 到 的 
DataFrame 的 列 束 会 以 相应 的 函数 命名 : 


In [66]: grouped pct.agg(['mean', 'std', peak_to_peak]) 
Out[66]: 


mean std peak_to_peak 

sex smoker 
Female False 0.156921 0.036421 0.195876 
True 0.182150 0.071595 0.360233 
Male False 0.160669 0.041849 0.220186 
True 0.152771 0.090588 0.674707 


你 并 非 一 定 要 接受 GroupBy 目 动 给 出 的 那些 列 
名 ， 特 别 是 lambda 函 数 ， 它 们 的 名 称 
是 '<lambda>'， 这 样 的 辨识 度 就 很 低 了 (通过 函数 
的 name 属 性 看 看 就 知道 了 ) 。 如 果 传 入 的 是 一 个 
由 (name,function) 元 组 组 成 的 列表 ， 则 各 元 组 的 第 
一 个 元 素 束 会 被 用 作 DataFrame 的 列 名 (可 以 将 这 
种 二 元 元 组 列表 看 做 一 个 有 序 映 射 ) : 


In [67]: grouped pct.agg([('foo', 'mean'), ('bar', np.std)]) 
Out[67]: 
foo bar 
sex smoker 
Female False 0.156921 0.036421 
True 0.182150 0.071595 
Male False 0.160669 0.041849 
True 0.152771 0.090588 


对 于 DataFrame， 你 还 可 以 定义 一 组 应 用 于 全 
部 列 的 函数 ， 或 不 同 的 列 应 用 不 同 的 函数 。 假 设 
我 们 想 要 对 tip_pct 和 total_b 记 列 计算 三 个 统计 信 


lan 


In [68]: functions = ['count', 'mean', 'max'] 


In [69]: result = grouped['tip_pct', 
'total bill'].agg(functions) 


In [70]: result 


Out[70]: 
tip_pct total bill 
count mean max count 
mean max 
sex smoker 
Female False 54 0.156921 0.252672 54 
18.105185 35.83 
True 33 0.182150 0.416667 33 
17.977879 44.30 
Male False 97 0.160669 0.291990 97 
19.791237 48.33 
True 60 0.152771 0.710345 60 


22.284500 50.81 


如 你 所 见 ， 结 果 DataFrame 拥 有 层次 化 的 列 ， 
这 相当 于 分 别 对 各 列 进行 聚 合 ， 然 后 用 concat 将 结 
果 组 装 到 一 起 ( 列 名 用 作 keys 参 数 ) 。 


In [71]: result['tip_pct'] 


Out[71]: 
count mean max 
Sex smoker 
Female False 54 0,156921 0.252672 
True 33 0.182150 0.416667 
Male False 97 0.160669 0.291990 
True 60 0.152771 0.710345 


跟前 面 一 样 ， 这 里 也 可 以 传 入 市 有 目 定 义 名 


称 的 元 组 列表 : 


In [72]: ftuples = [('Durchschnitt '， 


np.var)] 


In [73]: grouped['tip_pct '， 
Out[73] : 


tip_pct 
Durchschnitt 
Abweichung 
Sex smoker 
Female False 0.156921 
53.092422 
True 0.182150 
84.451517 
Male False 0.160669 
76.152961 
True 0.152771 
98.244673 


'mean'), ('Abweichung', 


'total bill'].agg(ftuples) 


total _ bill 
Abweichung Durchschnitt 


0.001327 18 .105185 
0.005126 17.977879 
0.001751 19.791237 
0.008206 22.284500 


现在 ,假设 你 想 要 对 不 同 的 列 应 用 不 同 的 画 
数 。 具 体 的 办 法 古 同 agg 传 入 一 个 从 列 名 映 冉 到 函 


效 的 于 典 : 


In [74]: grouped.agg({'tip' 
Out[74]: 


size tip 

Sex smoker 
Female False 140 5.2 
True 74 6.5 


: np.max, 'size' : 'sum'}) 


Male False 263 9.0 


True 150 10.0 
In [75]: grouped.agg({'tip_pct' : ['min', 'max', 'mean', 
'std'], 
i 'size' : 'sum'}) 
Out[75] : 
tip_pct size 
min max mean std sum 
SeX Smoker 


Female False 0.056797 0.252672 0.156921 0.036421 140 
True 0.056433 0.416667 0.182150 0.071595 74 
Male False 0.071804 0.291990 0.160669 0.041849 263 
True 0.035638 0.710345 0.152771 0.090588 150 


只 有 将 多 个 函数 应 用 到 至 少 一 列 时 ， 
DataFrame 才 会 拥有 层次 化 的 列 。 


以 “无 宗 引 ”的 形式 返回 聚合 数据 


到 目前 为 止 ， 所 有 示例 中 的 稼 合 数据 都 有 由 
唯一 的 分 组 键 组 成 的 索引 (可 能 还 是 层次 化 
的 ) 。 由 于 并 不 总 是 需要 如 此 ， 所 以 你 可 以 癌 
groupby 传 入 as_index=False 以 禁用 该 功能 : 


In [76]: tips.groupby(['sex', 'smoker'], 
as_index=False).mean() 
Out[76]: 

sex smoker total bill tip size tip_pct 
90 Female False 18.105185 2.773519 2.592593 0.156921 
1 Female True 17.977879 2.931515 2.242424 0.182150 
2 Male False 19.791237 3.113402 2.711340 0.160669 


3 Male True 22.284500 3.051167 2.500000 0.152771 


当然 ， 对 结果 调用 reset index 也 能 得 到 这 种 形 
式 的 结果 。 


警告 :groupby 的 这 种 用 法 比较 缺乏 灵活 性 。 
译注 2: 注意 ， 如 果 传 入 的 百 分 位 上 没有 值 ， 则 


quantile 会 进行 线性 插值 
译注 3: 也 就 是 “ 面 同 分 组 ”的 计算 。 


分 组 级 运算 和 转换 


聚合 只 不 过 是 分 组 运算 的 其 中 一 种 而 已 。 它 
是 数据 转换 的 一 个 特例 ， 也 束 是 说 ， 它 接 有 党 能 够 
将 一 维 数 组 人 简化 为 标量 值 的 画 数 。 在 本 三 中 ， 我 
将 介绍 transform 和 apply 方 法 ， 它 们 能 够 执行 更 多 
其 他 的 分 组 运算 。 


假设 我 们 想 要 为 一 个 DataFrame 深 加 一 个 用 于 
ee "一 个 从 法 下 先 聚合 


In [77]: df 
Out[77]: 

datal data2 keyl1 key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


In [78]: ki means = 
df .groupby('key1').mean().add_prefix('mean_') 


In [79]: ki means 
Out[79]: 
mean_datal mean_data2 


key1 
a 0.746672 0.910916 
b -0.537585 0.525384 


In [80]: pd.merge(df, ki _ means，JlLeft_on= 'key1L '， 
right_index=True) 
Out[80]: 

datal data2 key1 key2 mean_datai mean_data2 


0 -0.204708 1.393406 a one 0.746672 0.910916 
1 0.478943 0.092908 a two 0.746672 0.910916 
4 1.965781 1.246435 a one 0.746672 0.910916 
2 -0.519439 0.281746 b one -0.537585 0.525384 
3 -0.555730 0.769023 b two -0.537585 0.525384 


虽然 这 样 也 行 ， 但 是 不 太 有 灵活 。 你 可 以 将 该 
过 程 看 做 利用 np.mean 芳 数 对 两 个 数据 列 进行 转 
换 。 再 以 本 章 前 面 用 过 的 那个 people DataFrame 为 
例 ， 这 次 我 们 在 GroupBy 上 使 用 transform 方 法 : 


In [81]: key = ['one', 'two', 'one', 'two', 'one'] 


In [82]: people.groupby(key).mean() 
Out[82]: 

a b C d e 
one -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
two 0.505275 -0.849512 0.075965 0.834983 0.452620 


In [83]: people.groupby(key).transform(np.mean) 
Out[83]: 


a b C d e 
JoOe 0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
Steve 0.505275 -0.849512 0.075965 0.834983 0.452620 
Wes -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
Jim 0.505275 -0.849512 0.075965 0.834983 0.452620 
Travis 0.082032 -1.063687 -1.047620 -0.884358 -0.028309 


不 难看 出 ，transform 会 将 一 个 函数 应 用 到 各 
个 分 组 ， 然 后 将 结果 放置 到 适当 的 位 置 上 上。 如果 
各 分 组 产生 的 是 一 个 标量 值 ， 则 该 值 束 会 被 广播 
出 去 。 现 在 ,假设 你 希望 从 各 组 中 减 去 平均 值 。 
为 此 ， 我 们 先 创建 一 个 距 平 化 函数 (demeaning 
function) ， 然 后 将 其 传 给 transform: 


In [84]: def demean(arr ) : 
和 return arr - arr.mean() 


In [85]: demeaned = people.groupby(key).transform(demean) 


In [86]: demeaned 


Out[86]: 

a b c d e 
Joe 1.089221 -0.232534 1.322612 1.113271 1.381226 
Steve 0.381154 -1.152125 -0.447807 0.834043 -0.891190 
Wes -0.457709 NaN NaN -0.136869 -0.548778 
Jim -0.381154 1.152125 0.447807 -0.834043 0.891190 
Travis -0.631512 0.232534 -1.322612 -0.976402 -0.832448 


你 可 以 检查 一 下 demeaned 现 在 的 分 组 平均 值 


是 否 为 0: 


In [87]: demeaned.groupby(key).mean() 


Out[87]: 

a b c d e 
one © -0 © © 0 
two -0 © 0©0 0 0 


在 下 一 节 中 你 将 会 看 到 ， 分 组 距 平 化 操作 还 
可 以 通过 apply 实 现 。 


apply: 一 般 性 的 “ 拆 分 一 应 用 一 合并 ” 


跟 aggregate 一 样 ，transform 也 是 一 个 有 看 严 
格 条 件 的 特殊 函数 : 传 入 的 函数 只 能 产生 两 种 结 
果 ， 要 么 产生 一 个 可 以 广播 的 标量 值 (如 
np.mean) ， 要 么 产生 一 个 相同 大 小 的 结果 数组 。 
最 一 般 化 的 GroupBy 方 法 是 apply， 本 太 和 镜 余 部 分 


将 重点 讲解 它 。 如 图 9-1 所 示 ，apply 会 将 符 处 理 的 
对 象 折 分 成 多 个 上 斤 段 ， 然 后 对 各 搬 段 调用 传 入 的 
国 效 ， 最 后 芝 试 将 各 片段 组 合 色 一 起 。 


回 色 之 二 那个 小 费 数 据 集 ， 假 设 你 想 要 根据 
分 组 选 出 最 高 的 5 个 tip_pct 值 。 首 先 ， 编 写 一 个 选 
2 Sa YI[/ SE 
取 指 定 列 具 有 最 大 值 的 行 的 画 数 于 5. 
In [88]: def top(df, n=5, column="'tip_pct'): 
i return df.sort_index(by=column)[-n:] 


In [89]: top(tips, n=6) 


Out[89]: 

total bill tip sex smoker day time size 
tip_pct 
109 14.31 4.00 Female True Sat Dinner 2 
0.279525 
183 23.17 6.50 Male True Sun Dinner 4 
0 .280535 
232 11.61 3.39 Male False Sat Dinner 2 
©0.291990 
67 3.07 1.00 Female True Sat Dinner 1 
0.325733 
178 9.60 4.00 Female True Sun Dinner 2 
0.416667 
172 7.25 5.15 Male True Sun Dinner 2 
0.710345 


现在 ， 如 和 东 对 smoker 分 组 并 用 该 函数 调用 
apply， 束 会 得 到 |: 


In [90]: tips.groupby('smoker').apply(top) 


Out[90]: 

total bill tip sex smoker day time 
size tip_pct 
smoker 


No 88 24.71 5.85 Male False Thur Lunch 


2 0.236746 

185 20.69 5.00 
5 0.241663 

51 10.29 2.60 
2 0.252672 

149 7.51 2.00 
2 0.266312 

232 11.61 3.39 
2 0.291990 
Yes 109 14.31 4.00 
2 0.279525 

183 23.17 6.50 
4 0.280535 

67 3.07 1.00 
1 0.325733 

178 9.60 4.00 
2 0.416667 

172 7.25 5.15 
2 0.710345 


Male 


Female 


Male 


Male 


Female 


Male 


Female 


Female 


Male 


False 


False 


False 


False 


True 


True 


True 


True 


True 


Dinner 


Dinner 


Lunch 


Dinner 


Dinner 


Dinner 


Dinner 


Dinner 


Dinner 


这 里 发 生 了 什么 ?top 范 数 在 DataFrame 有 的 各 
个 片段 上 调用 ， 然 后 结果 由 pandas.concat 组 装 到 
一 起 ， 并 以 分 组 名 称 进行 了 7 标记。 于 是 ， 最 终结 
果 束 有 了 一 个 层次 化 条 3 引 ， 其 内 层 索 引 值 米 目 原 


DataFrame ° 


如 来 传 给 apply 的 函数 能 够 接受 其 他 参数 或 天 
健 子 ， 则 可 以 将 这 些 内 容 放 在 了 芳 数 名 后 面 一 并 传 


2 


In [91]: tips.groupby([ "smoker '， 


column="'total _ bill') 
Out[91]: 

total bill 
time size tip_pct 
smoker day 
No Fri 94 22.75 
Dinner 2 0.142857 


tip 


3.25 


‘day'1).apply(top, 


sex smoker 


Female 


False 


n=1, 


day 


Fri 


Sat 212 48 .33 9.00 Male “ False Sat 


Dinner 4 0.186220 

Sun 156 48 ,17 5.00 Male False Sun 
Dinner 6 0.103799 

Thur 142 41.19 5.00 Male False Thur 
Lunch 5 0.121389 
Yes Fri 95 40 ,17 4.73 Male True Fri 
Dinner 4 0.117750 

Sat 170 50.81 10.00 Male True Sat 
Dinner 3 0.196812 

Sun 182 45 .35 3.50 Male True Sun 
Dinner 3 0.077178 

Thur 197 43 ,11 5.00 Female True Thur 
Lunch 4 0.115982 


注意 :， 除 这 些 基本 用 法 之 外 ， 能 否 充分 发 挥 
apply 的 威力 很 大 程度 上 取决 于 你 的 创造 力 。 传 入 
的 那个 久 数 能 做 什么 全 由 你 说 了 算 ， 它 只 需 返 回 
一 个 pandas 对 象 或 标量 值 即 可 。 本 章 后 续 部 分 的 
主要 用 于 讲解 如 何 利 用 groupby 解 决 各 种 各 样 

"J 右 . o 


可 能 你 已 经 想起 来 了 ， 之 前 我 在 GroupBy 对 
象 上 调用 过 describe: 
In [92]: result = tips.groupby('smoker') 
['tip_pct'].describel() 


In [93]: result 


Out[93] 

smoker 

No count 151.000000 
mean 0.159328 
std 0.039910 
min 0.056797 
25% 0.136906 
5O% 0.155625 
75% 0.185014 


max 0.291990 


Yes count 93.000000 
mean 0.163196 
std 0.085119 
min 0.035638 
25% 0.106771 
5O% 0.153846 
75% 0.195059 
max 0.710345 


In [94]: result.unstack('smoker') 


Out[94]: 

smoker No Yes 
count 151.000000 93.000000 
mean 0.159328 0.163196 
std 0.039910 0.085119 
min 0.056797 0.035638 
25% 0.136906 ©0.106771 
5O% 0.155625 0.153846 
75% 0.185014 0.195059 
max 0.291990 0.710345 


在 GroupBy 中 ， 当 你 调用 诸如 describe 之 类 的 
方法 上 时， 实际 上 只 是 应 用 了 下 面 两 条 代码 的 快捷 
方式 而 已 : 


f = lambda x: x.describe() 
grouped.apply(f) 


荣 止 分 组 键 


从 上 面 的 例子 中 可 以 看 出 ,分 组 键 会 跟 原 始 
对 象 的 索引 共同 构成 结果 对 象 中 的 层次 化 床 引 。 
将 group_keys=False 传 入 groupby 即 可 禁止 该 戏 
果 : 


In [95]: tips.groupby('smoker', group_keys=False).apply(top) 


Out[95]: 

total bill tip sex smoker day time size 
tip_pct 
88 24.71 5.85 Male False Thur Lunch 2 
0.236746 
185 20.69 5.00 Male False Sun Dinner 5 
0.241663 
51 10.29 2.60 Female False Sun Dinner 2 
0.252672 
149 7.51 2.00 Male False Thur Lunch 2 
0.266312 
232 11.61 3.39 Male False Sat Dinner 2 
0.291990 
109 14.31 4.00 Female True Sat Dinner 2 
0.279525 
183 23.17 6.50 Male True Sun Dinner 4 
0.280535 
67 3.07 1.00 Female True Sat Dinner 1 
0.325733 
178 9.60 4.00 Female True Sun Dinner 2 
0.416667 
172 7.25 5.15 Male True Sun Dinner 2 
0.710345 


分 位 数 和 桶 分 析 


我 曾 在 第 7 章 中 讲 过 ，pandas 有 一 些 能 根据 指 
定 面 元 或 样本 分 位 数 将 数据 拆 分 成 多 块 的 工具 
(比如 cut 和 qcut) 。 将 这 些 函 数 跟 groupby 结 合 起 
来 ， 就 能 非常 轻松 地 实现 对 数据 集 的 桶 
(bucket) 或 分 位 数 (gquantile) 分 析 了 。 以 下 面 
这 个 简单 的 随机 数据 集 为 例 ， 我 们 利用 cut 将 其 于 
入 长 度 相等 的 桶 中 : 


In [96]: frame = DataFrame({'data1i': np.random.randn(1000), 
让 'data2': np.random.randn(1000)}) 


In [97]: 


In [98]: factor[:10] 
Out[98]: 
Categorical: 


array([(-1.23, 0.489], (-2.956, 


(0.489, 2.208], 


factor = pd.cut(frame.datai, 4) 


-1.23], (-1.23, 0.489], 


(-1.23, 0.489], (0.489, 2.208], (-1.23, 0.489], 


(-1.23, 0.489], 


(0.489, 2.208], (0.489, 2.208]], 
Index([(-2.956, 


Levels (4): 
2.208], 


(2.208, 3.928]], 


算 : 
In [99]: 


group ,mean( )} 


In [100] 
In [101]: 
Out[101]: 

count 
datal 
(-1.23, 0.489|] 598 
(-2.956, -1.23] 95 
(0.489, 2.208|] 297 
(2.208，3,.928] 10 


def get_stats(group): 
return {'min' 
"COunt 


: group .min( )， 
: group.count(), 


Max 


3.260383 
1.670835 
2.954439 
1.765640 


dtype=object) 


-1.23], (-1.23, 0.489], (0.489, 


dtype=object) 


由 cut 返 回 的 Factor 对 象 可 直接 用 于 groupby 。 
因此 ， 我 们 可 以 像 下 面 这 样 对 data2 做 一 些 统计 计 


'max' 


: grouped = frame.data2.groupby(factor) 


grouped.apply(get_stats).unstack() 


mean 


-0.002051 
-0.039521 


0.081822 
0.024750 


: group ,max()， 
"mean ' : 


min 


-2.989741 
-3.399312 
-3.745356 
-1.929776 


这 些 都 症 长 度 相 等 的 桶 。 要 根据 样本 分 位 数 
得 到 大 小 相等 的 桶 ， 使 用 gcut 即 可 6。 传 入 
labels=False 即 可 只 获取 分 位 数 的 编号 。 


# 廊 四 分 位 效 山 杞 
In [102]: grouping = pd.qcut(frame.datai, 10, labels=False) 


In [103]: grouped = frame.data2.groupby(grouping) 


In [104]: grouped.apply(get_stats).unstack() 


Out[104]: 

count max mean min 
0 100 1.670835 -0.049902 -3.399312 
1 100 2.628441 0.030989 -1.950098 
2 100 2.527939 -0.067179 -2.925113 
3 100 3.260383 0.065713 -2.315555 
4 100 2.074345 -0.111653 -2.047939 
5 100 2.184810 0.052130 -2.989741 
6 100 2.458842 -0.021489 -2.223506 
7 100 2.954439 -0.026459 -3.056990 
8 100 2.735527 0.103406 -3.745356 
9 100 2.377020 0.220122 -2.064111 


示例 : 用 特定 于 分 组 的 值 填充 缺失 值 


对 于 缺失 数据 的 清理 工作 ， 有 时 你 会 用 
dropna 将 其 滤 除 ， 而 有 时 则 可 能 会 布 望 用 一 个 固 
定 值 或 由 数据 集 本 号 所 衍生 出 来 的 值 去 填充 NA 
值 。 这 时 殉 得 使 用 fillna 这 个 工具 了 。 在 下 面 这 个 
例子 中 ， 我 用 平均 值 去 填充 NA 值 : 


In [105]: s = Series(np.random.randn(6)) 


In [106]: s[::2] = np.nan 


In [107]: s 
Out[107]: 

0 NaN 
1 -0.125921 
2 NaN 
3 -0.884475 
4 NaN 


5 0.227290 


In [108]: s.fillna(s.mean()) 


Out [108 ] : 

0 -0.261035 
-0.125921 

2 -0.261035 

3 -0.884475 

4 -0.261035 

5 0.227290 


假设 你 需要 对 不 同 的 分 组 填充 不 同 的 值 。 可 
能 你 已 经 猜 到 了 ， 只 需 将 数据 分 组 ， 并 使 用 apply 
和 一 个 能 够 对 各 数据 块 调用 和 Ina 的 范 数 即 可 。 下 
面 是 一 些 有 关 美 国 几 个 州 的 示例 数据 ， 这 些 州 又 
羽 分 为 东部 和 西部 : 
In [109]: states = ['Ohio', 'New York', 'Vermont', 
'Florida', 
i 'Oregon', ‘'Nevada', 'California', 
'Idaho'] 
In [110]: group_key = ['East'] *4+ ['west'] * 4 
In [111]: data = Series(np.random.randn(8), index=states) 


In [112]: data[['Vermont', 'Nevada', 'Idaho']] = np.nan 


In [113]: data 


Out[113] : 

Ohio 0 .922264 
New York -2.153545 
Vermont NaN 
Florida -0.375842 
Oregon 0.329939 
Nevada NaN 
California 1.105913 
Idaho NaN 


In [114]: data.groupby(group_key).mean() 


Out[114] : 
East -0.535707 
West 0.717926 


”我们 可 以 用 分 组 平均 信 去 卉 充 NA 信 ， 如 下 所 
休 、\: 


In [115]: fill mean = lambda g: g.fillna(g.mean()) 


In [116]: data.groupby(group_key).apply(fill mean) 


Out[116]: 

Ohio 0 .922264 
New York -2.153545 
Vermont -0.535707 
Florida -0.375842 
Oregon 0.329939 
Nevada 0.717926 
California 1.105913 
Idaho 0.717926 


此 外 ， 也 可 以 在 代码 中 预定 义 各 组 的 填充 
值 。 由 于 分 组 具有 一 个 name 属 性 ， 所 以 我 们 可 以 
In [117]: fill values = {'East': 0.5, 'West': -1} 


In [118]: fill_ func = lambda 9g: 
g.fillna(fill values[g.namel]) 


In [119]: data.groupby(group_key).apply(fill func) 


Out[119] : 

Ohio 0.922264 
New York -2.153545 
Vermont 0.500000 
Florida -0.375842 
Oregon 0.329939 
Nevada -1.000000 
California 1.105913 
Idaho -1.000000 


示例 :随机 采样 和 排列 


假设 你 想 要 从 一 个 大 数据 集中 随机 抽取 样本 
以 进行 蒙特 卡 罗 模 拟 (Monte Carlo simulation) 或 
其 他 分 析 工 作 。“ 抽 取 ” 的 方式 有 很 多 ， 其 中 一 些 
的 效率 会 比 其 他 的 局 很 多 。 一 个 办 法 是 ， 选 取 
np.random.permnutation(N) 的 前 K 个 元 素 ， 其 中 N 为 
完整 数据 的 大 小 ，K 为 期 户 的 样本 大 小 。 作 为 一 
个 更 有 趣 的 例子 ， 下 面 是 构造 一 副 英 语 型 扑克 有 牌 
全 了， 


suits = ['H', 'S', 'C', 'D'] 
card val = (range(1, 11) + [10] * 3) * 4 
base_ names = ['A'] + range(2, 11) + ['J', 'K', 'Q'] 
cards = [|] 
for suit in ['H', 'S', 'C', 'D']: 
cards.extend(str(num) + suit for num in base_names) 


deck = Series(card val, index=cards) 


现在 我 有 了 一 个 长 度 为 52 的 Series， 其 索引 为 
牌 名 ， 值 则 是 21 点 或 其 他 游戏 中 用 于 计 分 的 点 数 
(为 了 简单 起 见 ， 我 当 A 的 点 数 为 1) : 


In [121]: deck[:13] 
Out[121]: 

AH 
2H 
3H 
4H 
5H 
6H 


OO 人 和 站 


7H 7 


8H 8 
9H 9 
10H 10 
JH 10 
KH 10 
QH 10 


现在 ， 根 据 我 上 面 所 讲 的 ， 从 整 副 牌 中 抽出 5 
张 ， 代 码 如 下 : 


In [122]: def draw(deck, n=5): 
By return 
deck.take(np.random.permutation(len(deck))[:n]) 


In [123]: draw(deck) 
Out[123]: 

AD 
8C 
5H 
KC 
2C 


[| 
DOmop 


假设 你 想 要 从 每 种 人 花色 中 随机 抽取 两 张 牌 。 
由 于 花色 是 脾 名 的 最 后 一 个 字符 ， 所 以 我 们 可 以 
据 此 进行 分 组 ， 并 使 用 apply: 


In [124]: get_suit = lambda card: card[-1] # 失当 最 后 一 个 子 丸 鸣 
可 以 了 


In [125]: deck.groupby(get_suit).apply(draw, n=2) 


Out[125]: 
C 2C 
3C 3 
D KD 10 
8D 8 
H KH 10 
3H 3 


S 25 2 


4S 4 


# 另 一 种 办 法 
In [126]: deck.groupby(get_suit, 
group_keys=False).apply(draw, n=2) 


Out[126]: 
KC 10 
JC 10 
AD l 
5D 5 
5H 5 
6H 6 
7S 7 
KS 10 


示例 : 分 组 加 权 平 均 数 和 相关 系数 


根据 groupby 的 “ 拆 分 一 应 用 一 合并 ” 汇 式 ， 
DataFrame 有 的 列 与 列 之 间或 两 个 Series 之 间 的 运算 
(比如 分 组 加 权 平 均 ) 成 为 一 种 标准 作业 。 以 下 
和 ， 它 舍 有 分 组 键 、 值 以 及 一 些 


In [127]: df = DataFrame({'category': ['a', 'a', 'a', 'a', 
'b"', 'b"', 'b"', 'b'], 
ns 'data': np.random.randn(8), 
'weights': np.random.rand(8)}) 


In [128]: df 
Out [128]: 


category data weights 
© a 1.561587 0.957515 
1 a 1.219984 0.347267 
2 a -0.482239 0.581362 
3 a 0.315667 0.217091 
4 b -0.047852 0.894406 
5 b -0.454145 0.918564 


6 b -0.556774 0.277825 
7 b 0.253321 0.955905 


然后 可 以 利用 category 计 算 分 组 加 权 平 均 数 : 


In [129]: grouped = df.groupby('category') 


In [130]: get wavg = lambda g: np.average(g['data'], 
weights=g['weights"']) 


In [131]: grouped.apply(get_wavg) 


Out[131]: 
category 
a 0.811643 
b -0.122262 


这 个 例子 比较 无 聊 ， 所 以 再 看 一 个 稍微 实际 
忆 的 例子 来 日 Yahoo!Finance 的 数据 集 ， 其 中 
含有 标准 普尔 500 指 数 (SPX 字 段 ) 和 几 只 股票 的 
收盘 价 : 


In [132]: close px = pd.read_csv( "ch09/Sstock_px,.cSsv '， 
parse_dates=True, index_col=0) 


In [133]: close_px 

Out[133]: 

<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 2214 entries, 2003-01-02 00:00:00 to 2011-10- 
14 00:00:00 

Data columns: 

AAPL 2214 non-null values 

MSFT 2214 non-null values 

XOM 2214 non-null values 

SPX 2214 non-null values 

dtypes: float64(4) 


In [134]: close px[-4:] 
Out[134] : 
AAPL MSFT XOM SPX 


2011-10-11 400.29 27.00 76.27 1195.54 
2011-10-12 402.19 26.96 77.16 1207.25 
2011-10-13 408.43 27.18 76.37 1203.66 
2011-10-14 422.00 27.27 78.11 1224.58 


来 做 一 个 比较 有 趣 的 任务 : 计算 一 个 由 日 收 
葵 率 (通过 百分数 变化 计算 ) 与 SPX 之 间 的 年 度 
相关 系数 组 成 的 DataFrame。 下 面 是 一 个 实现 办 
法 : 
In [135]: rets = Close_px,pct_change().dropna( ) 
In [136]: spx_corr = lambda x: x.corrwith(x['SPX']) 
In [137]: by_year = rets.groupby(lambda x: x.year) 


In [138]: by_year.apply(spx_corr) 


Out[138]: 

AAPL MSFT XOM SPX 
2003 0.541124 0.745174 0.661265 1 
2004 0.374283 0.588531 0.557742 1 
2005 0.467540 0.562374 0.631010 1 
2006 0.428267 0.406126 0.518514 1 
2007 0.508118 0.658770 0.786264 1 
2008 0.681434 0.804626 0.828303 1 
2009 0.707103 0.654902 0.797921 1 
2010 0.710105 0.730118 0.839057 1 
2011 0.691931 0.800996 0.859975 1 


当然 ， 你 还 可 以 计算 列 与 列 之 间 的 相关 系 


# 平 示 相 做 杖 的 年 上 度 人 由 天 系 

In [139]: by_year.apply(lambda g: g['AAPL"'].corr(g[l'MSFT"' |])) 
Out[139]: 

2003 0.480868 

2004 0 .259024 

2005 0 .300093 


2006 0.161735 
2007 0.417738 
2008 0.611901 
2009 0.432738 
2010 0.571946 
2011 0.581987 


示例 : 面 同 分 组 的 线性 回归 


顺 着 上 一 个 例子 继续 ， 你 可 以 用 groupby 执 行 
更 为 复杂 的 分 组 统计 分 析 ， 只 要 函数 返回 的 是 
pandas 对 象 或 标量 值 即 可 。 例 如 ， 我 可 以 定义 下 
面 这 个 regress 函 数 (利用 statsmodels 库 ) 对 各 数据 
块 执行 普通 最 小 二 乘法 (Ordinary Least Squares， 
OLS) 回归 : 


import statsmodels.api as sm 
def regress(data, yvar, xvars): 
Y = data[yvar] 
X = data[xvars] 
X[ ' intercept '] = 1. 
result = sm.OLS(Y, Xx).fit() 
return result.params 


现在 ， 为 了 按 年 计算 AAPL 对 SPX 收 益 率 的 线 
性 回归 ， 我 执行 : 


In [141]: by_year.apply(regress, 'AAPL', ['SPX']) 
Out[141]: 
SPX intercept 


2003 195406 0 .000710 


1. 
2004 1.363463 0.004201 
2005 1.766415 0 .003246 
2006 1.645496 0.000080 
2007 1.198761 0.003438 


2008 0.968016 -0.001110 
2009 0©0.879103 ©0 .002954 
2010 1.052608 0.001261 
2011 ©0.806605 © .001514 


详 注 5: 原文 比较 抛 口 ， 其 实 束 古 “ 在 指定 列 找 出 
最 大 值 ， 然 后 把 这 个 值 所 在 的 行 选 取出 来 ”。 
译注 6: 和 补充 说 明 一 下 。“ 长 度 相 等 的 桶 ” 指 的 
生 “ 区 间 大 小 相等 “六 小 相等 的 棚 ? 指 的 是 “ 效 据 
所 数量 相 等 ”。 


透视 表 和 区 叉 表 


透视 表 (pivot table) 是 各 种 电子 表格 程序 和 
其 他 数据 分 析 软 件 中 一 种 剃 见 的 数据 汇总 工具 。 
它 根据 一 个 或 多 个 键 对 效 据 进 行 聚合 ， 并 根据 行 
和 列 上 的 分 组 键 将 数据 分 配 到 各 个 滤 形 区 域 中 。 
人 在 Python 和 pandas 中 ， 可 以 通过 本 章 所 介绍 的 
groupby 功 能 以 及 〈 能 够 利用 层次 化 索引 的 ) 重 塑 
运算 制作 透视 表 。DataFrame 有 一 个 pivot_table 方 
法 ， 此 外 还 有 一 个 顶级 的 pandas.pivot_ table 函 数 。 
除 能 为 groupby 提 供 便利 之 外 ，pivot_table 下 可 以 
添加 分 项 小 计 〈 也 叫做 margins) 。 


回 到 小 费 数 据 集 ， 假 设 我 想 要 根据 sex 和 和 
smoker 计 算 分 组 平均 数 (pivot_table 的 默认 聚合 类 
型 ) ， 并 将 sex 和 smoker 放 到 行 上 : 


In [142]: tips.pivot_ table(rows=['sex', 'smoker']) 
Out[142]: 
size tip tip_pct total bill 
sex smoker 
Female No 2.592593 2.773519 0.156921 18.105185 
Yes 2.242424 2.931515 0.182150 17.977879 
Male No 2.711340 3.113402 0.160669 19.791237 
Yes 2.500000 3.051167 0.152771 22.284500 


这 对 groupby 来 说 也 是 很 商 单 的 事情 。 现 在 ， 
假设 我 们 只 想到 合 tip_pct 和 size， 而 且 想 根据 day 进 
行 分 组 。 我 将 smoker 放 到 列 上 ， 把 day 放 到 行 上 : 


In [143]: tips.pivot table(['tip_pct', 


day ]， 
Out[143] : 
tip_pct 

smoker No Yes 

sex day 

Female Fri 0.165296 0.209129 
Sat 0.147993 0.163817 
Sun 0.165710 0.237075 
Thur 0.155971 0.163073 

Male Fri 0.138005 0.144730 
Sat 0.162132 0.139067 
Sun 0.158291 0.173964 
Thur 0.165706 0.164417 


还 可 以 对 这 个 表 作 进一步 的 处 理 ， 传 入 


NO 


colLs='Smoker ') 


size 
No 


.500000 
.307692 
.071429 


480000 


,000000 
.656250 
.883721 
.500000 


'size'l], 


2 
2 
2 
2 
2 
2 
2 
2 


Yes 


,000000 
.200000 
.S00000 
.428571 
.125000 
.629630 
.600000 
.300000 


rows=['sex', 


margins=True 浴 加 分 项 小 计 。 这 将 会 添加 标签 为 
Al 的 行 和 列 ， 其 值 对 应 于 单个 等 级 中 所 有 效 据 的 
分 组 统计 。 在 下 面 这 个 例子 中 ，All 值 为 平均 数 : 
不 单独 考虑 烟 民 与 非 烟 民 (All 列 ) ， 不 单独 考虑 
行 分 组 两 个 级 别 中 的 任何 单项 (All 行 ) 。 


In [144]: tips.pivot_ table(['tip_pct', 


'day'], 
Out[144]: 
size 

smoker No Yes 
All 
Sex day 
Female Fri 2.500000 2.000000 
0.199388 

Sat 2.307692 2.200000 
0.156470 

Sun 3.071429 2.500000 
0.181569 

Thur 2.480000 2.428571 
0.157525 
Male Fri 2.000000 2.125000 


D 


Dh 


Dh 


Dh 


Dh 


All 


.111111 


.250000 


.944444 


.468750 


.100000 


rsize'], 


© 


© 


© 


© 


© 


tip_pct 

No 
.165296 
.147993 
.165710 
.155971 


.138005 


cols='smoker', margins=True) 


© 


© 


© 


© 


© 


rows=['sex', 


Yes 


.209129 


.163817 


.237075 


.163073 


.144730 


0.143385 


Sat 2.656250 2.629630 
0.151577 

Sun 2.883721 2.600000 
© .162344 

Thur 2.500000 2.300000 
0.165276 
All 2.668874 2.408602 
0 .160803 


2.644068 


2.810345 


2.433333 


2.569672 


0.162132 


0.158291 


0.165706 


0.159328 


0.139067 


0.173964 


0.164417 


0.163196 


要 使 用 其 他 的 聚合 函数 ， 将 其 传 给 aggfunc 即 
可 。 例 如 ， 使 用 count 或 lan 可 以 得 到 有 天 分 组 大 小 


国人 和 


In [145]: tips.pivot_ table('tip_pct', 


cols='day', 


Out[145]: 

day Fri Sat Sun Thur All 

sex smoker 

Female No 2 13 14 25 54 
Yes 7 15 4 7 33 

Male No 2 32 43 20 97 
Yes 8 2 15 10 60 

All 19 87 76 62 244 


rows=['sex', 


aggfunc=len, margins=True) 


'smoker"'], 


如 果 存 在 空 的 组 合 (也 就 是 NA) ， 你 可 能 会 


希望 设置 一 个 fill_value: 


In [146]: tips.pivot_ table('size', 


'smoker' ]， 


fill value=0) 


Out[146] : 
day Fri Sat 
time Sex smoker 
Dinner Female No 2 30 
Yes 8 33 
Male No 4 85 
Yes 12 予 二 


Sun Thur 
43 2 
10 0 

124 0 
39 0 


rowSs=[ time '， 


cols='day'，aggfunc='Ssum '， 


“SeXx>-” ， 


Lunch “ Female No 3 0 0 60 
Yes 6 0 0 17 

Male No 0 0 0 50 

Yes 5 0 0 23 


VS 


pivot_table 的 参数 说 明 请 参见 表 9-2 。 


表 9-2: pivot_table 的 参数 
参数 名 说 明 
values 待 聚 合 的 列 的 名 称 。 默 认 聚 合 所 有 数值 列 


rows 用 于 分 组 的 列 名 或 其 他 分 组 键 ， 出 现在 结果 透视 表 的 行 

cols baer bid 出 现在 结果 透视 表 的 列 

aggfunc 函数 或 函数 列表 ， 默 认为 'mean'。 可 以 是 任何 对 groupby 有 效 的 函数 
fill_value ee 

margins 添加 行 / 列 小 计 和 和 总计， 默认 为 False 


交叉 表 :，crosstab 


交叉 表 《cross-tabulation， 人 简称 crosstab) 是 一 
种 用 于 计算 分 组 频率 的 特殊 透视 表 。 下 面 这 个 艺 
例 数 据 很 典型 ， 取 目 交 义 示 的 Wikipedia 页 : 


In [150]: data 
Out[150]: 
Sample Gender Handedness 
Female Right-handed 
Male Left-handed 
Female Right-handed 
Male Right-handed 
Male Left-handed 
Male Right-handed 
Female Right-handed 
Female Left-handed 


OCODPO 
OOORRODNDP 


8 9 Male Right-handed 
9 10 Female Right-handed 


假设 我 们 想 要 根据 性 别 和 用 手 习 惯 对 这 段 效 
据 进 行 统计 汇总 。 虽 然 可 以 用 pivot_table 实 现 该 功 
能 ， 但 是 pandas.crosstab 函 数 会 更 方便 : 


In [151]: pd.crosstab(data.Gender, data.Handedness, 
margins=True) 


Out[151]: 

Handedness Left-handed Right-handed All 
Gender 

Female 1 4 5 
Male 2 3 5 
All 3 7 10 


crosstab 的 前 两 个 参数 可 以 是 数组 、Series 或 数 
组 列表 。 再 比如 对 小 费 数据 集 : 


In [152]: pd.crosstab([tips.time, tips.day|], tips.smoker, 
margins=True) 
Out[152]: 


smoker No Yes All 
time day 
Dinner Fri 3 9 12 


Sat 45 42 87 
Sun 57 19 76 
Thur 1 0 1 
Lunch Fri 1 6 7 
Thur 44 17 61 
All 151 93 244 


示例 : 2012 联 邦 选 举 委 员 会 效 据 库 


美国 联邦 选举 委员 会 发 布 了 有 关 政 治 竞 选 赞 助 

方面 的 数据 。 其 中 包括 赞助 者 的 姓名 、 职 业 、 雇 
主 、 地 址 以 及 出 资 额 等 信息 。 我 们 对 2012 年 美国 总 
统 大 选 的 数据 集 比 较 感 兴趣 

(http://www.fec.gov/disclosurep/PDownload.do) 。 
到 编写 本 书 时 为 止 (2012 年 6 月 ) ， 涵 盖 全 美 各 州 的 
完整 数据 集 是 一 个 150MB 的 CSV 文 件 (P00000001- 
ALL.csv) ， 我 们 先 用 pandas.read_csv 将 其 加 载 进 
来 : 


In [13]: fec = pd.read csv('ch09/PO0000001-ALL.csv') 


In [14]: fec 

Out[14]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1001731 entries, © to 1001730 
Data columns: 


cmte_id 1001731 non-null values 
cand_id 1001731 non-null values 
cand_nm 1001731 non-null values 
contbr_nm 1001731 non-null values 
contbr_city 1001716 non-null values 
contbr_st 1001727 non-null values 
contbr_zip 1001620 non-null values 
contbr_employer 994314 non-null values 
contbr_occupation 994433 non-null values 
contb_receipt_amt 1001731 non-null values 
contb_receipt_dt 1001731 non-null values 
receipt_desc 14166 non-null values 
memo_cd 92482 non-null values 
memo_text 97770 non-null values 
form tp 1001731 non-null values 
file_num 1001731 non-null values 


dtypes: float64(1), int64(1), object(14) 


该 DataFrame 中 的 记录 如 下 所 示 : 


In [15]: fec.ix[123456] 


Out[15] : 

cmte_id COO0431445 
cand_id P80003338 
cand_nm Obama, Barack 
contbr_nm ELLMAN, IRA 
contbr_city TEMPE 
contbr_st AZ 
contbr_zip 852816719 
contbr_employer ARIZONA STATE UNIVERSITY 
contbr_occupation PROFESSOR 
contb_receipt_amt 50 
contb_receipt_dt 01-DEC-11 
receipt_desc NaN 
memo_cd NaN 
memo_text NaN 
form tp SA17A 
file_num 772372 


Name: 123456 


你 可 能 已 经 想 出 了 许多 办 法 从 这 些 苋 克 和 忱 助 数 
据 中 抽取 有 关 赞 助人 和 沈 助 模式 的 统计 信息 。 我 将 
在 接 下 来 的 内 容 中 介绍 几 种 不 同 的 分 析 工 作 (运用 
到 目前 为 止 已 经 学 到 的 技术 ) 。 


不 难看 出 ， 该 数据 中 没有 芝 派 信息 ， 因 此 最 好 
把 它 加 进去 。 通 过 unique， 你 可 以 获取 全 部 的 候选 
人 (注意 ，NumPy 不 会 输出 信息 中 字符 串 两 侧 

a 。 


In [16]: unidue_cands = fec,cand_nm,.unidue() 


In [17]: unique_cands 

Out[17] : 

array([Bachmann, Michelle, Romney, Mitt, Obama, Barack, 
Roemer, Charles E. 'Buddy' III, Pawlenty, Timothy, 


Johnson, Gary Earl, Paul, Ron, Santorum, Rick, Cain, 
Herman, 
Gingrich, Newt, McCotter, Thaddeus 6G, Huntsman, Jon, 
Perry, Rick], 
dtype=object) 


In [18]: unique_cands[2] 
Out[18]: 'Obama, Barack' 


最 简单 的 办 法 是 利用 字典 说 明 党 派 关 系 二 1: 


parties = {'Bachmann, Michelle': 'Republican', 
'Cain, Herman': 'Republican', 
'Gingrich, Newt': 'Republican', 
'Huntsman, Jon': 'Republican', 
'Johnson, Gary Earl': 'Republican', 
'McCotter, Thaddeus G': 'Republican', 
'Obama, Barack': 'Democrat', 
'Paul, Ron': 'Republican', 
'Pawlenty, Timothy': 'Republican', 
'Perry, Rick': 'Republican', 
"Roemer, Charles E. 'Buddy' III": 'Republican', 
'Romney, Mitt': 'Republican', 
'Santorum, Rick': 'Republican'} 


现在 ， 通 过 这 个 映 映 以 及 Series 对 象 的 map 方 
法 ， 你 可 以 根据 候 和 远 人 姓名 得 到 一 组 和 党派 信 息 : 


In [20]: fec.cand_ nm[123456:123461] 
Out[20]: 

123456 Obama, Barack 

123457 Obama, Barack 

123458 Obama, Barack 

123459 Obama, Barack 

123460 Obama, Barack 

Name: cand_nm 


In [21]: fec.cand_nm[123456:123461].map(parties) 
Out[21]: 

123456 Democrat 

123457 Democrat 

123458 Democrat 


123459 Democrat 
123460 Democrat 
Name: cand_nm 


# 将 其 添加 为 一 个 新 列 
In [22]: fec['party'] = fec.cand_ nm.map(parties) 


In [23]: fec['party'].value counts() 
Out[23]: 

Democrat 593746 

Republican 407985 


这 里 有 两 个 需要 注意 的 地 方 。 第 一 ， 该 数据 既 
包括 赞助 也 包括 退 款 ( 负 的 出 资 额 ) 


In [24]: (fec.contb_receipt amt > 0).value counts() 


Out[24]: 
True 991475 
False 10256 


为 了 侧 化 分 析 过 程 ， 我 限定 该 数据 集 只 能 有 正 
的 出 资 额 ; 


In [25]: fec = fec[fec.contb_receipt_ amt > 0] 


由 于 Barack Obama 和 Mitt Romney 古 最 主要 的 两 
名 候选 人 ， 所 以 我 还 专门 准备 了 一 个 于 集 ， 只 包含 
针对 他 们 两 人 的 竞选 活动 的 赞助 信息 : 


In [26]: fec mrbo = fec[fec,.cand nm.isin(['Obama, Barack', 
'Romney, Mitt"'])] 


根据 职业 和 殿 主 统计 觉 助 信息 


基于 职业 的 赞助 信息 统计 是 男 一 种 经 常 被 研究 
的 统计 任务 。 例 如 ， 律 师 们 更 倾 同 于 资助 民主 各， 
而 企业 主 则 更 颁奖 于 资助 共和 党。 你 可 以 不 相信 
我 ， 目 己 看 那些 数据 驶 知道 了 。 首 先 ， 根 据 职 业 计 
算出 资 总 额 ， 这 很 简单 : 


In [27]: fec,contbr_occupation.value_counts()[:10] 


Out[27] : 


RETIRED 233990 
INFORMATION REQUESTED 35107 
ATTORNEY 34286 
HOMEMAKER 29931 
PHYSICIAN 23432 
INFORMATION REQUESTED PER BEST EFFORTS 21138 
ENGINEER 14334 
TEACHER 13990 
CONSULTANT 13273 
PROFESSOR 12555 


不 难看 出 ， 


许多 职业 都 涉及 相同 的 基本 工作 类 


型 ， 或 者 同一 样 东西 有 多 种 变 体 。 下 面 的 代码 搬 段 
可 以 清理 一 些 这 样 的 数据 (将 一 个 职业 信息 映射 到 


另 一 个 ) 。 注 意 ， 


许 没有 映 喘 关系 的 职业 也 能 “通过 >”: 


这 里 巧妙 地 利用 To Ee 


occ_mapping = { 
'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED', 
'INFORMATION REQUESTED' : 'NOT PROVIDED', 
'INFORMATION REQUESTED (BEST EFFORTS)' : 'NOT PROVIDED', 
'C.E.0.': 'CEO' 

} 

# 如 果 没 有 提供 相关 映射 ， 则 返回 x 


f = lambda x: occ_ mapping.get(x, x) 
fec.contbr_occupation = fec,contbr_ occupation,map(f) 


我 对 雇主 信息 也 进 


行 了 同样 的 处 理 : 


emp_mapping = { 
'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED', 
'INFORMATION REQUESTED' : 'NOT PROVIDED', 
'SELF' : "SELF-EMPLOYED '， 
'SELF EMPLOYED' : "SELF-EMPLOYED '， 


} 
# 如 采 没 有 提供 相关 映射 ， 则 返回 x 


f = lambda x: emp_mapping.get(x, x) 
fec.contbr_employer = fec.contbr_employer.map(f) 


现在 ， 你 可 以 通过 pivot_table 根 据 党 派 和 职业 对 
然后 过 滤 挥 总 出 次 额 不 足 200 万 美元 


In [34]: by_occupation = fec.pivot_ table('contb_receipt _ amt', 


I 


rows='contbr_occupation', 
SS cols="'party', 
aggfunc="'sum') 


In [35]: over_2mm = by_occupation[by_occupation.sum(1) > 
2000000] 


In [36]: over_2mm 


Out[36] : 

party Democrat Republican 
contbr_occupation 

ATTORNEY 11141982.97 7477194.430000 
CEO 2074974.79 4211040 .520000 
CONSULTANT 2459912.71 2544725.450000 
ENGINEER 951525.55 1818373.700000 
EXECUTIVE 1355161.05 4138850 .090000 
HOMEMAKER 4248875.80 13634275.780000 
INVESTOR 884133 .00 2431768 .920000 
LAWYER 3160478 .87 391224.320000 
MANAGER 762883.22 1444532 .370000 
NOT PROVIDED 4866973.96 20565473.010000 
OWNER 1001567.36 2408286 .920000 
PHYSICIAN 3735124.94 3594320 .240000 
PRESIDENT 1878509 .95 4720923.760000 
PROFESSOR 2165071.08 296702.730000 


REAL ESTATE 528902 09 1625902 .250000 


RETIRED 25305116.38 23561244.489999 
SELF-EMPLOYED 672393.40 1640252 .540000 


把 这 些 数据 做 成 柱状 图 看 起 来 会 更 加 清 苞 
(barh' 表 示 水 平 柱状 图 ， 如 图 9-2 所 示 ) 


In [38]: over_2mm.plot(kind="'barh’') 


SELF-EMPLOYED 


contbr_occupation 
三 
> 
4 
3 
已 
mm 
万 


party 
Democrat 


i Republican 


3 
le7 


赂 9-2 . 对 各 和 党 派 总 出 资 额 最 高 的 职业 


你 可 能 还 想 了 解 一 下 对 Obama 和 Romney 总 出 资 

额 最 高 的 职业 和 企业 。 为 此 ， 我 们 先 对 候选 人 进行 

， 然后 使 用 本 章 前 面 介 绍 的 那 种 求 取 最 大 值 的 
法 : 


def get_top_amounts(group，key，n=5) : 
totals = group.groupby(key)['contb_receipt amt'].sum() 


# 根据 key 对 totals 进 行 降序 排列 
return totals.order(ascending=False)[n:] 


然后 根据 职业 和 雇主 进行 聚合 : 


In [40]: grouped = fec_mrbo.groupby('cand_nm') 


In [41]: grouped.apply(get_ top_amounts, 'contbr_occupation', 


n=7) 
Out[41]: 
cand_nm contbr_occupation 
Obama, Barack RETIRED 
25305116.38 
ATTORNEY 
11141982.97 
INFORMATION REQUESTED 


4866973.96 

HOMEMAKER 
4248875.80 

PHYSICIAN 
3735124.94 

LAWYER 
3160478.87 

CONSULTANT 
2459912.71 


Romney, Mitt RETIRED 
11508473.59 

INFORMATION REQUESTED PER BEST EFFORTS 
11396894.84 


HOMEMAKER 
8147446 .22 

ATTORNEY 
5364718 .82 

PRESIDENT 
2491244.89 

EXECUTIVE 
2300947.03 

C.E.0. 
1968386.11 


Name: contb_receipt amt 


In [42]: grouped.apply(get_top_amounts, 'contbr_employer', 
n=10) 
Out[42] : 
cand_nm contbr_employer 
Obama, Barack RETIRED 
22694358.85 
SELF-EMPLOYED 
17080985.96 


NOT EMPLOYED 


8586308.70 

INFORMATION REQUESTED 
5053480.37 

HOMEMAKER 
2605408.54 

SELF 
1076531.20 

SELF EMPLOYED 
469290 .00 

STUDENT 
318831 ,45 

VOLUNTEER 
257104.00 

MICROSOFT 
215585 .36 


Romney, Mitt INFORMATION REQUESTED PER BEST EFFORTS 
12059527 .24 


RETIRED 
11506225.71 

HOMEMAKER 
8147196 .22 

SELF-EMPLOYED 
7409860 .98 

STUDENT 
496490 .94 

CREDIT SUISSE 
281150 ,00 

MORGAN STANLEY 
267266.00 

GOLDMAN SACH & CO. 
238250 ,00 

BARCLAYS CAPITAL 
162750.00 

H.I.G. CAPITAL 
139500 ,00 


Name: contb_receipt_amt 


对 出 资 额 分 组 


还 可 以 对 该 数据 做 另 一 种 非 单 实用 的 分 析 : 利 
用 cut 画 数 根据 出 货 额 的 大 小 将 数据 离 天 化 到 多 个 面 


元 中 : 
In [43]: bins = np.array([0, 1, 10, 100, 1000, 10000, 100000, 
1000000, 10000000]) 

In [44]: labels = pd.cut(fec _mrbo,.contb_receipt_ amt, bins) 


In [45]: labels 


Out[45]: 

Categorical: contb_ receipt _ amt 

array([(10, 100], (100, 1000], (100, 1000], ..., (1, 10], (10, 
100] ， 


(100, 1000]], dtype=object) 
Levels (8): Index([(0, 1], (1, 10], (10, 100], (100, 1000], 
(1000, 10000], 

(10000, 100000], (100000, 1000000], (1000000, 10000000]], 
dtype=object) 


然后 根据 候选 人 姓名 以 及 面 元 标签 对 数据 进行 


分 组 : 


In [46]: grouped = fec_ mrbo.groupby(['cand_nm', labels]) 


In [47]: grouped.size().unstack(0) 


Out[47]: 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 493 77 
(1, 10] 40070 3681 
(10, 100] 372280 31853 
(100, 1000] 153991 43357 
(1000, 10000] 22284 26186 
(10000, 100000] 2 1 
(100000, 1000000] 3 NaN 
(1000000, 10000000] 4 NaN 


从 这 个 数据 中 可 以 看 出 ， 在 小 括 赞 助 方面 ， 
Obama 获 得 的 数量 比 Romney 多 得 多 。 你 还 可 以 对 出 
资 额 求 和 并 在 面 元 内 规格 化 ， 以 便 图 形 化 显示 两 位 
候选 人 各 种 赞助 额度 的 比例 : 


In [48]: bucket_Ssums = 
grouped.contb_receipt_amt.sum().unstack(0) 


In [49]: bucket_sums 


Out[49] : 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 318 .24 77.00 
(1, 10] 337267 .62 29819 .66 
(10, 100] 20288981.41 1987783.76 
(100, 1000] 54798531.46 22363381.69 
(1000, 10000] 51753705 .67 63942145 ,42 
(10000, 100000] 59100 .00 12700 .00 
(100000, 1000000] 1490683.08 NaN 
(1000000, 10000000] 7148839.76 NaN 


In [50]: normed_sums = bucket_sums.div(bucket_sums.sum(axis=1), 
axis=0) 


In [51]: normed_sums 


Out[51]: 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 0.805182 0.194818 
(1, 10] 0.918767 0.081233 
(10, 100] 0.910769 0.089231 
(100, 1000] 0.710176 0.289824 
(1000, 10000] 0.447326 0.552674 
(10000, 100000] 0.823120 0.176880 
(100000, 1000000] 1.000000 NaN 
(1000000, 10000000] 1.000000 NaN 


In [52]: normed_ sums[:-2].plot(kind='barh', stacked=True) 


我 排除 了 两 个 最 大 的 面 元 ， 因 为 这 此 不 是 由 个 
人 捐赠 的 。 最 终 的 结果 如 图 9-3 所 示 。 


cand_nm 


(10000, 100000] 目 EE Obama, Barack 
ERomney， Mitt 


(1000, 10000] 


_receipt amt 


tb 
广 
A 
已 
© 
2 


图 9-3: 两 位 候选 人 收 到 的 各 种 捐赠 额度 的 总 额 比 例 


当然 ， 还 可 以 对 该 分 析 过 程 做 许多 的 提炼 和 改 
进 。 比 如 说 ， 可 以 根据 赞助 人 的 姓名 和 邮编 对 数据 
进行 聚合 ， 以 便 找 出 哪些 人 进行 了 多 次 小 额 捐 球 ， 
哪些 人 叉 进 行 了 一 次 或 多 次 大 和 颌 捐 球 。 我 强烈 建议 
你 下 载 这 些 数 据 并 目 己 探索 一 下 。 


根据 州 统计 移 助 信息 
目 先 目 然 古 根 据 候选 人 和 州 对 数据 进行 到 合 : 


In [53]: grouped = fec_ mrbo.groupby(['cand_nm', "contbr_st ']) 


In [54]: totals = 
grouped.contb_receipt_amt.sum().unstack(0).fillna(o0) 


In [55]: totals = totals[totals.sum(1) > 100000] 


In [56]: totals[:10] 


Out[56] : 


cand_nm Obama, Barack Romney, Mitt 
contbr_st 

AK 281840.15 86204.24 
AL 543123.48 527303.51 
AR 359247.28 105556.00 
AZ 1506476.98 1888436.23 
CA 23824984.24 11237636.60 
CO 2132429 .49 1506714.12 
CT 2068291.26 3499475.45 
DC 4373538 .80 1025137 .50 
DE 336669 .14 82712.00 
FL 7318178.58 8338458.81 


如 琳 对 各 行 除 以 总 沉 助 额 ， 束 会 得 到 各 候 夺 人 
在 各 州 的 总 竺 助 额 比例 : 


In [57]: percent = totals.div(totals.sum(1), axis=0) 


In [58]: percent[ :10] 


Out[58]: 

cand_nm Obama, Barack Romney, Mitt 
contbr_st 

AK 0.765778 0.234222 
AL 0.507390 0.492610 
AR 0.772902 0.227098 
AZ 0.443745 0.556255 
CA 0.679498 0.320502 
CO 0.585970 ©0.414030 
CT 0.371476 0.628524 
DC 0.810113 0.189887 
DE 0.802776 0.197224 
FL 0.467417 0.532583 


我 认为 在 地 图 上 看 这 些 数 据 会 比较 有 意思 (第 8 
划 中 介绍 过 相关 技术 ) 。 在 找到 有 关 州 界 的 shape 
file (http://nationalatlas.gov/atlasftp.html? 
openChapters=chpbound) 并 稍微 学 习 一 下 matplotlib 
及 其 basemap 工 具 包 (Thomas Lecocg 的 博客 帮 了 我 


的 大 忙于 ) 之 后 ， 我 终于 用 下 面 这 段 代码 画 出 了 刚 
才 算 出 来 的 相对 百分比 :玉生 7 


from mpl_toolkits.basemap import Basemap, cm 
import numpy as np 

from matplotlib import rcParams 

from matplotlib,.collections import LineCollection 
import matplotlib.pyplot as pit 


from shapelib import ShapeFile 
import dbflib 


obama = percent['Obama, Barack'] 


fig = plt.figure(figsize=(12, 12)) 
= fig.add axes([0.1,0.1,0.8,0.8]) 


lllat = 21; urlat = 53; lllon = -118; urlon = -62 


m = Basemap(ax=ax, projection='stere', 
lon_0=(urlon + lllon) / 2, lat 0=(urlat + lllat) / 
2 
llcrnrlat=]llat, urcrnrlat=urlat, llcrnrlon=]llon, 
urcrnrlon=urlon, resolution="'1') 
m.drawcoastlines() 
m.drawcountries() 


sh 


p ShapeFile('../states/statesp020') 
dbf = d 


= dbflib.open('../states/statesp020') 
for npoly in range(Sshp.info()[0]): 
# 在 地 图 上 绘制 彩色 多 边 形 
shpsegs = [] 
shp_object = shp.read object(npoly) 
verts = shp_object.vertices() 
rings = len(verts) 
for ring in range(rings): 

lons, lats = zip(*verts[ring]) 

x, y = m(lons, lats) 

shpsegs. append( 21p(%, y)) 

if ring = 

Soe et = dbf.read_record(npoly) 

name = Shapedict['STATE '] 

lines = LineCollection(shpsegs,antialiaseds=(1, )) 


# state_to_code 字 典 ， 例 如 'ALASKA' -> 'AK', omitted 
try : 

per = obama[state_ to_code[name.upper()]] 
except KeyError : 

continue 


lines.set_ facecolors('k') 
lines.set_alpha(0.75 * per) # 把 “百分比 " 变 小 一 点 
lines.set_ edgecolors('k') 
lines.set_ linewidth(0.3) 


plt.show() 


最 终结 果 如 图 9-4 所 示 。 


图 9-4: 汇集 了 所 有 赞助 统计 信息 的 美国 地 图 (颜色 
越 深 表示 越 支 持 民主 党 ) 

注 1: 为 了 简单 起 见 ， 这 里 假设 Gary Johnson 是 一 名 

共和 和 侣 员 ， 虽 然 他 后 来 成 为 目 由 党 的 候选 人 。 


注 2 
http:/www.geophysique.be/2011/01/27/matplotlib- 
basemap-tutorial-07-shapefiles-unleached/° 

译注 7: 属 愧 ， 折腾 了 整整 两 天 ， 傍 是 没 做 出 来 。 太 
郁 加 了， 照 奢 输入 都 不 行 。 在 网 上 找 了 一 个 比较 有 
效 的 办 法 ， 不 过 由 于 时 间 太 芭 殉 没完 成 ， 硕 望 读者 
Sa 以 纹 更 多 读 


第 10 草 ”时 间 友 列 


不 管 在 哪个 领域 中 (如 金融 学 、 经 济 学 、 和 后 
态 学 、 神 经 科学 、 物 理学 等 ) ， 时 间 序 列 (time 
series) 数据 都 是 一 种 重要 的 结构 化 数据 形式 。 在 
多 个 时 间 点 观 穴 或 测量 到 的 任何 事物 都 可 以 形成 
一 段 时 间 序 列 。 很 多 时 间 序 列 是 固定 频 座 的 ， 也 
就 是 说 ， 数 据点 是 根据 某 种 规律 定期 出 现 的 《〈 比 
如 每 15 秒 、 每 5 分 钟 、 每 月 出 现 一 次 ) 。 时 间 序 列 
也 可 以 是 不 定期 的 。 时 间 序 列 数据 的 意义 取决 于 
具体 的 应 用 场景 ， 主 要 有 以 下 几 种 : 


-时 间 戳 (timestamp) ， 特 定 的 时 刻 。 
固定 时 期 (period) ， 如 2007 年 1 月 或 2010 年 
A 


.时间 间 隔 (interval) ， 由 起 始 和 结束 时 间 稚 
表示 。 时 期 (period) 可 以 被 看 做 间隔 
(interval) 的 特例 。 


-实验 或 过 程 时 间 ， 每 个 时 间 点 都 古 相对 于 特 
定 起 始 时 间 的 一 个 有 度量。 例如， 从 放 入 烤箱 时 
起 ， 每 秒 钟 饼干 的 直径 。 


本 草 主要 讲解 前 3 种 时 间 序 列 。 许 多 技术 都 可 
用 于 处 理 实 难 型 时 间 序 列 ， 其 索引 可 能 走 一 个 整 
数 或 浮 点 数 (表示 从 实验 开始 算 起 已 经 过 去 的 时 
间 ) 。 最 人 简单 也 最 第 见 的 时 间 序 列 都 是 用 时 间 礁 
进行 索引 的 。 


pandas 提 供 了 一 组 标准 的 时 间 序 列 处 理工 具 
和 数据 算法 。 因 此 ， 你 可 以 高 效 处 理 非常 大 的 时 
间 序 列 ， 轻 松 地 进行 切片 / 切 块 、 案 合 、 对 定期 /不 
定期 的 时 间 序 列 进行 重 米 样 等 。 可 能 你 已 经 独到 
了 ， 这 些 工 具 中 大 部 分 都 对 金融 和 经 济 数 据 尤 为 
有 用 ， 但 你 当然 也 可 以 用 它们 来 分 析 服 务 硕 日 志 
数据 。 

注意 : 本 章 中 部 分 功能 和 代码 (比如 处 理 时 
期 的 那些 ) 用 到 了 已 经 停止 更 新 的 


. . . . iY 
scikits.timeseries 库 。 汪 全 1 


译注 1: 没 找到 2.7 的 ， 但 是 网 上 好 像 有 人 用 了 。 


日 期 和 时 间 数 据 类 型 及 工具 


Python 标 准 库 包含 用 于 日 期 (date) 和 时间 
(time) 数据 的 数据 类 型 ， 而 且 还 有 日 历 方 面 的 功 
能 。 我 们 主要 会 用 到 datetime、time 以 及 calendar 模 
块 。datetime.datetime (也 可 以 简写 为 datetime) 是 
用 得 最 多 的 数据 类 型 : 


In [317]: from datetime import datetime 

In [318]: now = datetime.now() 

In [319]: now 

Out[319]: datetime.datetime(2012, 8, 4, 17, 9, 21, 832092) 
In [320]: now.year, now.month, now.day 

Out[320]: (2012, 8, 4) 


datetime 以 训 秒 形式 存储 日 期 和 时 间 。 
datetime.timedelta 表 示 两 个 datetime 对 象 之 间 的 时 
闻 产 : 


In [321]: delta = datetime(2011, 1, 7) - datetime(2008, 6, 


24, 8, 15) 

In [322]: delta 

Out[322]: datetime.timedelta(926, 56700) 
In [323]: delta.days 

Out[323]: 926 

In [324]: delta.seconds 


Out[324]: 


56700 


可 以 给 datetime 对 象 加 上 (或 减 去 ) 一 个 或 多 
个 timedelta， 这 样 会 产生 一 个 新 对 象 : 
In [325]: from datetime import timedelta 
In [326]: start = datetime(2011, 1, 7) 


In [327]: start + timedelta(12) 
Out[327]: datetime.datetime(2011, 1, 19, 0, 0) 


In [328]: start - 2 * timedelta(12) 
Out[328]: datetime.datetime(2010, 12, 14, 0, 0) 


datetime 模 块 中 的 数据 类 型 参见 表 10-1°。 虽然 
本 章 主 要 讲 的 是 pandas 数 据 类 型 和 高 级 时 间 序 列 处 
理 ， 但 你 肯定 会 在 Python 的 其 他 地 方 遇 到 有 关 
datetime 的 数据 类 型 。 


表 10-1: datetime 模 块 中 的 数据 类 型 


类 型 说 明 
date 以 公历 形式 存储 日 历 日 期 (和 年、 月、 日) 
time 将 时 间 存 储 为 时 、 分 、 秒 、 毫 秒 


datetime 存储 日 期 和 时 间 
timedelta 表示 两 个 datetime 值 之 间 的 差 (日 、 秒 、 毫 秒 ) 


字符 串 和 datetime 的 相互 转换 


利用 str 或 strftime 方 法 ( 传 入 一 个 格式 化 字符 
串 ) ，datetime 对 和 象 和 pandas 的 Timestamp 对 象 稍 
后 就 会 介绍 ) 可 以 被 格式 化 为 字符 串 : 


In [329]: stamp = datetime(2011, 1, 3) 


In [330]: str(stamp) In [331]: 
stamp.strftime( '%Y-%m-%d ' ) 


Out[330]: '2011-01-03 00:00:00' Out[331]: '2011-01-03' 


表 10-2 列 出 了 全 部 的 格式 化 编码 。 
datetime.strptime 也 可 以 用 这 些 格 式 化 编码 将 字符 
早 转 换 为 日 期 : 


In [332]: value = '2011-01-03" 


In [333]: datetime.strptime(value, '%Y-%m-%d ' ) 
Out[333]: datetime.datetime(2011, 1, 3, 0, 0) 


In [334]: datestrs = ['7/6/2011', '8/6/2011  ] 
In [335]: [datetime.strptime(x, '%m/%d/%Y') for x in 
datestrs] 


Out[335]: [datetime.datetime(2011, 7, 6, 0, 0), 
datetime.datetime(2011, 8, 6, 0, 0)] 


datetime. strptime 丰 通过 已 知 格式 进行 日 期 解 
析 的 最 佳 方式 。 但 是 每 次 都 要 编写 格式 定义 是 很 
拼 烦 的 事情 ， 尤 其 是 对 于 一 些 津 见 的 日 期 格式 。 


这 种 情况 下 ， 你 可 以 用 dateutil 这 个 第 三 方 包 中 的 
parser.parse 方 法 : 


In [336]: from dateutil.parser import parse 


In [337]: parse('2011-01-03') 
Out[337]: datetime.datetime(2011, 1, 3, 0, 0) 


dateutil 可 以 解析 几乎 所 有 人 类 能 够 理解 的 日 
期 表示 形式 译注 2， 


In [338]: parse('Jan 31, 1997 10:45 PM') 
Out[338]: datetime.datetime(1997, 1, 31, 22, 45) 


在 国际 通用 的 格式 中 ,日 通常 出 现在 月 的 前 
面 ， 传 入 dayfirst=True 即 可 解决 这 个 问题 : 


In [339]: parse('6/12/2011', dayfirst=True) 
Out[339]: datetime.datetime(2011, 12, 6, 0, 0) 


pandas 通 第 是 用 于 处 理 成 组 日 期 上 时， 不 管 这 些 
日 期 是 DataFrame 的 轴 索 引 还 是 列 。to_datetime 方 
法 可 以 解析 多 种 不 同 的 日 期 表示 形式 。 对 标准 日 
期 格式 (如 ISO8601) 的 解析 非常 快 。 


In [340]: datestrs 
Out[340]: ['7/6/2011', '8/6/2011'] 


In [341]: pd.to_datetime(datestrs) 

Out[341] : 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2011-07-06 00:00:00, 2011-08-06 00:00:00] 
Length: 2, Freq: None, Timezone: None 


它 还 可 以 处 理 缺 失 值 (None、 空 字符 串 
等 ) . 
In [342]: idx = pd.to datetime(datestrs + [None]) 


In [343]: idx 


Out[343]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2011-07-06 00:00:00, ..., NaT] 


Length: 3, Freq: None, Timezone: None 


In [344]: idx[2] 
Out[344]: NaT 


In [345]: pd.isnull(idx) 
Out[345]: array([False, False, True|], dtype=bool) 


NaT (Nota Time) 是 pandas 中 时 间 惟 数据 的 
NA 值 。 


警告: dateutil.parser 古 一 个 实用 但 不 完美 的 
工具 。 比 如 说 ， 它 会 把 一 些 原本 不 是 日 期 的 字符 
0 日 期 比如 "42" 会 被 解析 为 2042 年 的 今 
人 O 〇 


表 10-2: datetime 格 式 定 义 (兼容 ISO C89) 
代码 说明 

%Y 4 位 数 的 年 

%y 2 位 数 的 年 

%m 2 位 数 的 月 [01, 12] 

%d 2 位 数 的 日 [01, 31] 


表 10-2: datetime 格 式 定义 (兼容 ISO C89) ( 续 ) 


代码 ”说 明 
%H 时 (24 小 时 制 ) [00, 23] 
%l 时 (12 小 时 制 ) [01, 12] 


%M 2 位 数 的 分 [00, 59] 

%S 秒 [00, 61] ( 秒 60 和 61 用 于 半 秒 ) 

%w 用 整数 表示 的 星期 几 [0 〈 星 期 天 ) ，6] 

%U 每 年 的 第 几 周 [00, 53]。 星 期 天 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 天 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

%W 每 年 的 第 几 周 [00, 53]。 星 期 一 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 一 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

%z ”以 +HHMM 或 -HHMM 表 示 的 UTC 时 区 偏 移 量 ， 如 果 时 区 为 naive 于 三， 则 返回 空 
字符 串 

%F %Y-%m-%d 简 写 形式 ， 例 如 2012-4-18 

%D %m/%d/%y 简 写 形 式 ， 例 如 04/18/12 


译注 4 


译注 3: 更 准确 一 点 地 讲 ， 应 该 是 时 间 对 和 象 ， 
而 不 是 时 区 。 时 间 对 象 有 naive 和 aware 之 分 ， 倍 时 
就 是 有 没有 人 为 调整 (比如 夏令 时 之 类 的 


译注 4:， 应 该 是 2012-04-18 才 对 。 


datetime 对 象 还 有 一 些 特定 于 当前 环境 (位 于 
不 同 国家 或 使 用 不 同 语言 的 系统 ) 的 格式 化 选 
项 。 人 例如， 德语 或 法 语系 统 所 用 的 月 份 商 写 束 与 
天 语系 统 所 用 的 不 同 。 


表 10-3: 特定 于 当前 环境 的 日 期 格式 

代码 ”说 明 

%a ”星期 几 的 简写 

%A ”星期 几 的 全 称 

%b ”月 份 的 简写 

%B ”月份 的 全 称 

%c 完整 的 日 期 和 时 间 ， 例 如 “Tue 01 May 2012 04:20:57 PM” 

%p ”不 同 环境 中 的 AM 或 PM 

%x ”适合 于 当前 环境 的 日 期 格式 ， 例 如， 在 美国 ，“May 1, 2012” 会 产生 
“05/01/2012” 

%X ”适合 于 当前 环境 的 时 间 格 式 ， 例 如 “04:24:12 PM” 


译注 2: 很 凌 憾 ， 中 文 不 行 。 


时 间 友 列 基础 


pandas 最 基本 的 时 间 序 列 类 型 就 是 以 时 间 鹤 
(通常 以 Python 字符 串 或 datatime 对 象 表示 ) 为 索 
引 的 Series: 


In [346]: from datetime import datetime 
In [347]: dates = [datetime(2011, 1, 2), datetime(2011, 1, 
5), datetime(2011, 1, 7), 

datetime (2011, 1, 8), datetime(2011, 1, 
10), datetime(2011, 1, 12)] 
In [348]: ts = Series(np.random.randn(6), index=dates) 


In [349]: ts 


Out[349]: 

2011-01-02 0 .690002 
2011-01-05 1.001543 
2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-10 -0.921169 
2011-01-12 -9.726213 


这 些 datetime 对 象 实际 上 是 被 放 在 一 个 
DatetimeIndex 中 的 。 现 在 ， 变 量 ts 就 成 为 一 个 
TimeSeries  : 


In [350]: type(ts ) 
Out[350]: pandas.core.series.TimeSeries 


In [351]: ts.index 
Out[351]: 
<class 'pandas.tseries.index.DatetimeIndex'> 


[2011-01-02 00:00:00, ..., 2011-01-12 00:00:00] 
Length: 6, Freq: None, Timezone: None 


注意 : 没 必 要 显 式 使 用 TimeSeries 的 构造 函 
效 。 当 创建 一 个 融 有 DatetimeIndex 上 的 Series 时 ， 
pandas 就 会 知道 该 对 象 是 一 个 时 间 序 列 。 


跟 其 他 Series 一 样 ， 不 同 索 引 的 时 间 序 列 之 间 
的 算术 运算 会 目 动 按 日 期 对 齐 : 


In [352]: ts + ts[::2] 


Out[352]: 

2011-01-02 1.380004 
2011-01-05 NaN 
2011-01-07 -1.006175 
2011-01-08 NaN 
2011-01-10 -1.842337 
2011-01-12 NaN 


pandas 用 NumpPy 的 datetime64 数 据 类 型 以 纳 秒 
形式 存储 时 间 鹤 : 


In [353]: ts.index.dtype 
Out[353]: dtype('datetime64[ns]') 


DatetimeIndex 中 的 各 个 标量 值 是 pandas 的 
Timestamp 对 和 象 : 


In [354]: stamp = ts.index[0] 


In [355]: stamp 
Out[355]: <Timestamp: 2011-01-02 00:00:00> 


只 要 有 需要 ，TimeStamp 可 以 随时 自动 转换 
为 datetime 对 象 。 此 外 ， 它 还 可 以 存储 频率 信息 
(如 果 有 的 话 ) ， 且 知道 如 何 执行 时 区 转换 以 及 
其 他 哥 作 。 稍 后 将 对 此 进 井 行 详细 讲解 。 


系 引 、 迹 取 、 于 集 构造 


由 于 TimeSeries 是 Series 的 一 个 子 类 ， 所 以 在 
索引 以 及 数据 选取 方面 它们 的 行为 是 一 样 的 : 


In [356]: stamp = ts.index[2] 


In [357]: ts[stamp] 
Out[357]: -0.50308739136034464 


还 有 一 种 更 为 方便 的 用 法 : 传 入 一 个 可 以 被 
解释 为 日 期 的 字符 串 。 
In [358]: ts['1/10/2011"] 
Out[358]: -0.92116860801301081 


In [359]: ts['20110110'] 
Out[359]: -0.92116860801301081 


对 于 较 长 的 时 间 序 列 ， 只 和 需 传 入 “年 ”或 “年 
月 ” 即 可 轻松 选取 数据 的 切 厂 : 
In longer_ts = Series(np.random.randn(1000), 


index=pd.date_range('1/1/2000', 
periods= Oe 


In [361]: longer_ts 
Out[361]: 


2000-01-01 0.222896 
2000-01-02 0.051316 
2000-01-03 -1.157719 
2000-01-04 0.816707 


2002-09-23 -0.395813 
2002-09-24 -0.180737 
2002-09-25 1.337508 
2002-09-26 -0.416584 
Freq: D，Length: 1000 


In [362]: longer_ts['2001'] 
Out[362]: 

2001-01-01 -1.499503 
2001-01-02 0.545154 
2001-01-03 0.400823 
2001-01-04 -1.946230 


2001-12-28 -1.568139 
2001-12-29 -0.900887 
2001-12-30 0.652346 
2001-12-31 0.871600 
Freq: D, Length: 365 
In [363]: longer_ts['2001-05'] 
Out[363]: 

2001-05-01 1.662014 
2001-05-02 -1.189203 
2001-05-03 0.093597 
2001-05-04 -0.539164 


2001-05-28 -0.683066 
2001-05-29 -0.950313 
2001-05-30 0.400710 
2001-05-31 -0.126072 
Freq: D, Length: 31 


通过 日 期 进行 切片 的 方式 只 对 规则 Series 有 有 


In [364]: ts[datetime(2011, 1, 7):] 
Out[364]: 
2011-01-07 -0.503087 


2011-01-08 
2011-01-10 
2011-01-12 


-0.622274 
-0.921169 
-0.726213 


由 于 大 部 分 时 间 序 列 数据 都 是 按照 时 间 先后 
排序 的 ， 因 此 你 也 可 以 用 不 存在 于 该 时 间 序 列 中 


的 时 间 鹤 对 其 


In [365]: ts 
Out[365]: 
2011-01-02 
2011-01-05 
2011-01-07 
2011-01-08 
2011-01-10 
2011-01-12 
In [366]: ts[ 
Out[366]: 
2011-01-07 
2011-01-08 
2011-01-10 


0.690002 
1.001543 


-0.503087 
-0.622274 
-0.921169 
-0.726213 
"1/6/2011 ' : 


-0.503087 


-0.622274 
-0.921169 


跟 之 前 一 样 ， 


进行 切片 〈 即 范围 查询 ) : 


'1/11/2011'] 


这 里 可 以 传 和 字符 吝 日 期 、 


datetime 或 Timestamp。 注 意 ， 这 样 切片 所 产生 的 
是 源 时 间 序 列 的 视图 ， 跟 NumPy 数 组 的 切片 运 生 
是 一 样 的 。 此 外 ， 还 有 一 个 等 价 的 实例 方法 也 可 
以 截取 两 个 日 期 之 间 TimeSeries: 


In [367]: ts.truncate(after='1/9/2011'") 


Out[367]: 

2011-01-02 
2011-01-05 
2011-01-07 
2011-01-08 


0 .690002 
1.001543 


-0.503087 
-0.622274 


上 面 这 些 操作 对 DataFrame 也 有 效 。 例 如 ， 对 
DataFrame 的 行进 行 索引 ; 


In [368]: dates = pd.date_range('1/1/2000', periods=100, 
freq='W-WwED') 


In [369]: long_df = DataFrame(np.random.randn(100, 4), 
本 index=dates, 
i columns=['Colorado', 'Texas', 
'New York', 'Ohio']) 


In [370]: long_df.ix['5-2001'] 
Out[370]: 

Colorado Texas New York Ohio 
2001-05-02 0.943479 -0.349366 0.530412 -0.508724 
2001-05-09 0.230643 -0.065569 -0.248717 -0.587136 
2001-05-16 -1.022324 1.060661 0.954768 -0.511824 
2001-05-23 -1.387680 0.767902 -1.164490 1.527070 
2001-05-30 0.287542 0.715359 -0.345805 0.470886 


市 有 重复 索引 的 时 间 序 列 


在 某 些 应 用 场景 中 ， 可 能 会 存在 多 个 观测 数 
同一 个 时 间 点 上 的 情况 。 下 面 吏 是 一 个 例 


In [371]: dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000", 
'1/2/2000', '1/2/2000',， 
a '1/3/2000']) 


In [372]: dup_ts = Series(np.arange(5), index=dates) 


In [373]: dup_ts 
Out[373]: 

2000-01-01 0 
2000-01-02 1 
2000-01-02 2 


2000-01-02 3 
2000-01-03 4 


通过 检查 索引 的 is_unique 属 性 ， 我 们 就 可 以 
知道 它 是 不 是 唯一 的 : 


In [374]: dup_ts.index.is_unique 
Out[374]: False 


对 这 个 时 间 序 列 进行 案 引 ， 要 么 产生 标量 
Tn 
复 : 


In [375]: dup_ts['1/3/2000'] # 不 重 夏 
Out[375]: 4 


In [376]: dup_ts['1/2/2000'] # 重复 
Out[376]: 

2000-01-02 1 

2000-01-02 2 

2000-01-02 3 


假设 你 想 要 对 具有 非 唯一 时 间 惟 的 数据 进行 
聚合 。 一 个 办 法 是 使 用 groupby， 并 传 入 level=0 
中 的 瞧 二 全民 1。 


In [377]: grouped = dup_ts.groupby(level=0) 


In [378]: grouped .mean( ) In [379]: grouped.count() 
Out[378]: Out[379] : 

2000-01-01 0 2000-01-01 1 
2000-01-02 2 2000-01-02 3 


2000-01-03 4 2000-01-03 1 


日 期 的 范围 、 频 率 以 及 移动 


pandas 中 的 时 间 序 列 一 般 补 认为 是 不 规则 的 ， 
也 就 是 说 ， 它 们 没有 固定 的 频率 。 对 于 大 部 分 应 
用 程序 而 言 ， 这 是 无 所 谓 的 。 但 是 ， 它 党 利 需 要 
以 某 种 相对 固定 的 频率 进行 分 机 ， 比 如 每 日 、 每 
月 、 每 15 分 钟 等 〈 这 样 自 然 会 在 时 间 序 列 中 引入 
缺失 值 ) 。 科 和 运 的 是 ，pandas 有 一 整 信 标准 时 间 序 
列 频 京 以 及 用 于 重 采 样 、 频 紊 推断、 生成 固定 频 
率 日 期 范围 的 工具 。 例 如 ， 我 们 可 以 将 之 前 那个 
时 间 序 列 转换 为 一 个 具有 固定 频率 (每 日 ) 的 时 
间 序 列 ， 只 需 调 用 resample 即 可 : 


In [380]: ts In [381]: ts.resample('D') 


Out[380]: Out[381]: 
2011-01-02 0.690002 2011-01-02 0.690002 
2011-01-05 1.001543 2011-01-03 NaN 
2011-01-07 -0.503087 2011-01-04 NaN 
2011-01-08 -0.622274 2011-01-05 1 .001543 
2011-01-10 -0.921169 2011-01-06 NaN 
2011-01-12 -0.726213 2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-09 NaN 
2011-01-10 0.921169 
2011-01-11 NaN 
2011-01-12 -0.726213 
Freq: D 


频率 的 转换 〈 或 重 采 样 ) 是 一 个 比较 大 的 主 
题 ， 稍 后 将 专门 用 一 世 来 进行 讨论 。 这 里 我 将 介 
诉 你 如 何 使 用 基本 的 频率 。 


生成 日 期 范围 


虽然 我 之 前 用 的 时 候 没 有 明说 ， 但 你 可 能 
经 猜 到 pandas.date_range 可 用 于 生成 指定 长 度 的 
DatetimeIndex: 


In [383]: Index 


Out[383] : 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-04-01 00:00:00, ..., 2012-06-01 00:00:00] 


Length: 62, Freq: D, Timezone: None 


默认 情况 下 ，date_range 会 产生 按 天 计算 的 时 
由 点。 如果 只 传 入 起 始 或 结束 日 期 ， 那 束 还 得 传 
入 一 个 表示 一 段 时 间 的 效 字 : 


In [384]: pd.date_range(start='4/1/2012', periods=20) 


Out[384]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-04-01 00:00:00, ..., 2012-04-20 00:00:00] 


Length: 20, Freq: D, Timezone: None 


In [385]: pd.date_range(end='6/1/2012', periods=20) 


Out[385]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-05-13 00:00:00, ..., 2012-06-01 00:00:00] 


Length: 20, Freq: D, Timezone: None 


起 始 和 结束 日 期 定义 了 日 期 索引 的 疗 格 边 
弄 。 例 如 ， 如 采 你 想 要 生成 一 个 由 每 月 最 后 一 个 
工作 日 组 成 的 日 期 索引 ， 可 以 传 入 BM" 频率 〈 表 


示 business end of month) ， 这 样 就 只 会 包含 时 间 


则 也 办 (或 刚好 在 边界 上 的 ) 符合 频率 要 求 的 日 
期 : 


In [386]: pd.date_range('1/1/2000', '12/1/2000', freq="'BM') 


Out[386]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2000-01-31 00:00:00, ..., 2000-11-30 00:00:00] 


Length: 11, Freq: BM, Timezone: None 


date_range 和 默认 会 体 留 起 始 和 结束 时 间 惟 的 时 
间 信 息 (如 果 有 的 话 ) : 


In [387]: pd.date_range('5/2/2012 12:56:31', periods=5) 


Out[387] : 
<class 'pandas.tseries,.index.DatetimeIndex'> 
[2012-05-02 12:56:31, ..., 2012-05-06 12:56:31] 


Length: 5, Freq: D, Timezone: None 


有 了 时， 虽然 起 始 和 结束 日 期 带 有 了 时间 信 息 ， 
但 你 希望 产生 一 组 被 规范 化 (normalize) 到 午夜 
的 上 时间 鹤 。normalize 选 项 即 可 实现 该 功能 


In [388]: pd.date_range('5/2/2012 12:56:31', periods=5, 
normalize=True) 


Out[388]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-05-02 00:00:00, ..., 2012-05-06 00:00:00] 


Length: 5, Freq: D, Timezone: None 


频率 和 日 期 侦 移 量 


pandas 中 的 频率 是 由 一 个 基础 频率 (base 
frequency) 和 一 个 乘 数 组 成 的 。 基 础 频率 通常 以 


一 个 字符 串 别 名 表示 ， 比 如 "M" 表 示 每 月 ，" 菇 "和 表 
示 每 小 时 。 对 于 每 个 基础 频率 ， 都 有 一 个 被 称 为 
日 期 偏 移 量 (date offset) 的 对 象 与 之 对 应 。 例 
如 ， 按 小 时 计算 的 频率 可 以 用 Hour 类 表示 : 


In [389]: from pandas.tseries.offsets Import Hour, Minute 


In [390]: hour = Hour() 


In [391]: hour 
Out[391]: <1 Hour> 


传 入 一 个 整数 即 可 定义 偶 移 量 的 倍数 ; 
In [392]: four_hours = Hour(4) 


In [393]: four_hours 
Out[393]: <4 Hours> 


一 般 来 说 ， 无 需 显 式 创建 这 样 的 对 象 ， 只 需 
使 用 说 如 "H" 或 "4H" 这 样 的 字符 串 别名 即 可 。 在 基 
人 础 频率 前 面 放 上 一 个 整数 即 可 创建 倍数 : 


In [394]: pd.date_range('1/1/2000', '1/3/2000 23:59 '， 


freq='4h') 

Out[394]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2000-01-01 00:00:00, ..., 2000-01-03 20:00:00] 


Length: 18, Freq: 4H, Timezone: None 


大 部 分 仿 移 量 对 象 都 可 通过 加 法 进行 连接 : 


In [395]: Hour(2) + Minute(30) 
Out[395]: <150 Minutes> 


同 理 ， 你 也 可 以 传 入 频率 字符 串 
(如 "2h30min") ， 这 种 字符 串 可 以 被 高 效 地 解析 
为 等 效 的 表达 式 : 


In [396]: pd.date_range('1/1/2000', periods=10, 
freq="'1h30min') 


Out[396]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2000-01-01 00:00:00, ..., 2000-01-01 13:30:00] 


Length: 10, Freq: 90T, Timezone: None 


有 些 频 率 所 摘 述 的 时 间 点 并 不 是 均匀 分 隔 
的 。 例 如 ，"M" (日 历 月 末 ) 和 "BM"” (每 月 最 后 
一 个 工作 日 ) 就 取决 于 每 月 的 天 数 ， 对 于 后 者 ， 
还 要 考虑 月 末 是 不 是 周末 。 由 于 没有 更 好 的 术 
语 ， 0 (anchored 
offset) “。 


Wi 


il 


注意 : 用 户 可 以 根据 实际 需求 目 定义 一 些 频 
率 基 以 便 提 供 pandas 所 没有 的 日 期 逻辑 ， 但 具体 的 
细 广 超出 了 本 书 的 施 围 。 


表 10-4: 时 间 序 列 的 基础 频率 


别名 


BMS 
W-MON、W-TUE… 


WOM-1MON、WOM-2MON… 


Q-JAN、Q-FEB… 


BQ-JAN、BQ-FEB… 


偏 移 量 类 型 

Day 

BusinessDay 

Hour 

Minute 

Second 

Milli 

Micro 

MonthEnd 
BusinessMonthEnd 


MonthBegin 


BusinessMonthBegin 


Week 


WeekOfMonth 


QuarterEnd 


BusinessQuarterEnd 


说 明 

每 日 历 日 

每 工作 日 

每 小 时 

每 分 

每 秒 

每 毫秒 〈 即 每 干 分 之 一 秒 ) 
每 微 秒 〈 即 每 百 万 分 之 一 秒 ) 
每 月 最 后 一 个 日 历 日 

每 月 最 后 一 个 工作 日 

每 月 第 一 个 日 历 日 


每 月 第 一 个 工作 日 

从 指定 的 星期 几 (MON、TUE、 
WED、THU、FRI、SAT、SUN) 开始 
算 起 ， 每 周 

产生 每 月 第 一 、 第 二 、 第 三 或 第 四 
周 的 星期 几 。 例 如 ，WOM-3FRI 表 
示 每 月 第 3 个 星期 五 

对 于 以 指定 月 份 (JAN、FEB、 
MAR、APR、MAY、JUN、JUL、 
AUG、SEP、OCT、NOV、DEC) 结 
的 年 度 ， 每 季度 最 后 一 月 的 最 后 一 
个 日 历 日 

对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 最 后 一 个 工作 日 


表 10-4: 时 间 序 列 的 基础 频率 ( 续 ) 


别名 
QS-JAN、QS-FEB… 


BQ9-JAN、BQ9-FEB… 


A-JAN、A-FEB… 


BA-JAN、BA-FEB… 
AS-JAN、AS-FEB… 
BAS-JAN、 BAS-FEB*… 


偏 移 量 类 型 


QuarterBegin 


说 明 
对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 第 一 个 日 历 日 


BusinessQuarterBegin 对 于 以 指定 月 份 结束 的 年 度 ， 每 季 


YearEnd 


度 最 后 一 月 的 第 一 个 工作 日 
每 年 指定 月 份 (JAN、FEB、MAR、 
APR、MAY、JUN、JUL、AUG、SEP、 
OCT、NOV、DEC) 的 最 后 一 个 日 历 
日 


BusinessYearEnd 每 年 指定 月 份 的 最 后 一 个 工作 日 


YearBegin 


每 年 指定 月 份 的 第 一 个 日 历 日 


BusinessYearBegin ”每 年 指定 月 份 的 第 一 个 工作 日 


WOM 日 期 


WOM (Week Of Month) 是 一 种 非常 实用 的 
频率 类 ， 它 以 WOM 开 头 。 它 使 你 能 获得 诸如 “每 
月 第 3 个 星期 五 ”之 类 的 日 期 : 


In [397]: rng = pd.date_range('1/1/2012', '9/1/2012 ' ， 
fred='WOM-3FRI ' ) 


In [398]: list(rng) 


Out[398]: 
[<Timestamp : 
<Timestamp : 
<Timestamp : 
<Timestamp : 
<Timestamp : 
<Timestamp : 
<Timestamp : 
<Timestamp : 


2012-01-20 
2012-02-17 
2012-03-16 
2012-04-20 
2012-05-18 
2012-06-15 
2012-07-20 
2012-08-17 


:O00>, 
:O00>, 
:00>, 
:00>, 
:00>, 
:O00>, 
:00>, 
:00>] 


美国 的 股票 期 权 交 易 人 会 意识 到 这 些 日 子 整 
征 标 准 的 月 度 到 期 日 。 


移动 (超前 和 注 后 ) 数据 


移动 (shifting) 指 的 是 沿 厦 时 间 轴 将 数据 前 
移 或 后 移 。Series 和 DataFrame 都 有 一 个 shift 方 法 用 
于 执行 早 纯 的 前 移 或 后 移 操 作 ， 保 持 索 引 不 变 : 

In R991 ts = Series(np.random.randn(4), 


a index=pd.date_range( '1/1/2000 ' ， 
periods=4, freq='M")) 


In [400]: ts In [401]: ts.shift(2) In 
[402]: ts.shift(-2) 

Out[400] : Out[401] : 

Out[402] : 

2000-01-31 0.575283 2000-01-31 NaN 2000- 
01-31 1.814582 

2000-02-29 0.304205 2000-02-29 NaN 2000- 
02-29 1.634858 

2000-03-31 1.814582 2000-03-31 0.575283 2000- 
03-31 NaN 

2000-04-30 1.634858 2000-04-30 0.304205 2000- 
04-30 aN 

Freq: M Freq: M Fred : 
M 


shift 通 常用 于 计算 一 个 时 间 序 列 或 多 个 时 间 序 
列 (如 DataFrame 的 列 ) 中 的 百分比 变化 。 可 以 这 
样 表达 : 


ts / ts.shift(1) - 1 


由 于 单纯 的 移 位 操作 不 会 修改 守 引 ， 所 以 部 

分 数据 会 被 于 弄 。 因 此 ， 如 有 条 频 率 已 知 ， 则 可 以 
将 其 传 给 shift 以 便 实 现 对 时 间 改 进行 位 移 而 不 是 对 
数据 进行 何 单 位 移 : 

In [403]: ts.shift(2, freq='M') 

Out [403] : 

2000-03-31 0.575283 

2000-04-30 0.304205 

2000-05-31 1.814582 


2000-06-30 1.634858 
Freq: M 


这 里 还 可 以 使 用 其 他 频率 ， 于 十 你 融 能 非 解 
灵活 地 对 数据 进行 超 醒 和 涨 后 处 理 了 : 


In [404]: ts.shift(3, freq='D') In [405]: ts.shift(1, 
freq="'3D') 

Out[404]: Out[405]: 
2000-02-03 0.575283 2000-02-03 
0.575283 

2000-03-03 0.304205 2000-03-03 
0.304205 

2000-04-03 1.814582 2000-04-03 
1.814582 

2000-05-03 1.634858 2000-05-03 
1.634858 


In [406]: ts.shift(1, freq='90T') 
Out[406]: 

2000-01-31 01:30:00 0.575283 
2000-02-29 01:30:00 0.304205 
2000-03-31 01:30:00 1.814582 
2000-04-30 01:30:00 1.634858 


通过 仿 移 量 对 日 期 进行 位 移 


第 一 次 } 


pandas 的 日 期 偏 移 量 还 可 以 用 在 datetime 或 


Timestamp 对 和 象 上 : 
In [407]: from pandas.tseries.offsets import Day, MonthEend 
In [408]: now = datetime(2011, 11, 17) 
In [409]: now + 3 * Day() 
Out[409]: datetime.datetime(2011, 11, 20, 0, 0) 


如 果 加 的 是 销 点 偏 移 量 (比如 MonthEnd) ， 


站 量 会 将 原 日 期 间 前 滚动 到 符合 频率 规则 


的 下 一 个 日 期 请 js: 


In [410]: 
Out[410]: 


In [411]: 


Out[411] 


: datetime.datetime(2011, 12, 31, ©0, 0) 


now + MonthEnd( ) 
datetime.datetime(2011, 11, 30, 0, 0) 


now + MonthEnd(2) 


通过 销 点 偏 移 量 的 rollforward 和 rollback 方 


: offset = MonthEnd ( ) 


In [412] 


In [413]: 
out[413] : 


In [414]: 


Out [414] 


: datetime,datetime(2011，10，31，0，0) 


法 ， 可 显 式 地 将 日 期 癌 前 或 同 后 “ 洲 动 ”: 


offset.rollforward(now) 
datetime.datetime(2011, 11, 30, ©0, 0) 


offset.rollback(now) 


日 期 侦 移 量 还 有 一 个 巧妙 的 用 法 ， 即 结合 


groupby 使 用 这 两 个 “滚动 ”方法 : 


In [415]: ts = Series(np.random.randn(20), 
ee index=pd.date_range( '1/15/2000 ' ， 
periods=20，Tfreq='4d ' ) ) 


In [416]: ts.groupby(offset.rollforward) ,mean( ) 
Out [416] : 

2000-01-31 -0.448874 

2000-02-29 -0.683663 

2000-03-31 0.251920 


当然 ， 更 人 简单、 更 快速 地 实现 该 功能 的 办 法 
是 使 用 resample ( 稍 后 将 对 此 进行 详细 介绍 ) 


In [417]: ts.resample('M', how='mean') 
Out[417]: 

2000-01-31 -0.448874 

2000-02-29 -0.683663 

2000-03-31 0.251920 

Freq: M 


译注 5: 拿 本 例 来 说 ， 就 是 第 一 次 位 移 的 量 可 能 没 
有 全 “月 姥 作 长， 融和 三 习 月 。 


上 区 人 处理 


了 时间 序列 处 理工 作 中 最 让 人 不 丈 的 束 是 对 时 
区 的 处 理 。 尤 其 是 夏令 时 (DST) 转变 ， 这 是 一 
种 最 并 见 的 麻烦 事 。 束 这 一 点 来 说 ， 许 多 人 都 选 
择 以 协调 世界 时 (UTC， 它 是 格林 尼 治 标准 时 间 
(Greenwich Mean Time) 的 接替 者 ， 目 前 已 经 是 
国际 标准 了 ) 来 处 理 时 间 序 列 。 时 区 是 以 UTC 偏 
移 量 的 形式 表示 的 。 例 如 ， 夏 令 时 期 旧 ， 纽 约 比 
UTC 慢 4 小 时 ， 而 在 全 年 其 他 时 间 则 比 UTC 慢 5 小 
时 。 


在 Python 中 ， 时 区 信息 来 目 第 三 方 库 pytz， 它 
使 Python 可 以 使 用 Olson 数 据 库 寺 :6 (汇编 了 世界 
时 区 信息 ) 。 这 对 历史 数据 非常 重要 ， 这 是 因为 
由 于 各 地 政府 的 各 种 突 发 奇想 ， 夏 令 时 转变 日 期 
(甚至 UTC 偏 移 量 ) 已 经 发 生 过 多 次 改变 了 。 欢 
拿 美 国 来 说 ，DST 转 变 时 间 上 自 1900 年 以 来 束 改 变 
过 多 次 ! 


有 关 pytz 库 的 更 多 信息 ， 请 查阅 其 文档 。 就 
而 言 ， 由 于 pandas 包 疼 了 pytz 的 功能 ， 因 此 你 
可 以 不 用 记忆 其 API， 只 要 记得 时 区 的 名 称 即 
可 。 时 区 名 可 以 在 文档 中 找到 ， 也 可 以 通过 交互 
的 方式 查看 : 


In [418]: import pytz 
In [419]: pytz.common_timezones[-5:] 


Out[419]: ['US/Eastern', 'US/Hawaii', 'US/Mountain', 
'US/Pacific', 'UTC'] 


要 从 pytz 中 获取 时 区 对 象 ， 使 用 pytz.timezone 
BB]: 


In [420]: tz = pytz.timezone('US/Eastern') 


In [421]: tz 
Out[421]: <DstTzInfo 'US/Eastern' EST-1 day, 19:00:00 STD> 


pandas 中 的 方法 既 可 以 接受 时 区 名 也 可 以 接 
这 种 对 象 。 我 建议 只 用 时 区 名 。 


本 地 化 和 转换 
默认 情况 下 ，pandas 中 的 时 间 序 列 是 单纯 的 
(naive) 时 区 。 看 看 下 面 这 个 时 间 序 列 |: 


rng = pd.date_range('3/9/2012 9:30', periods=6, freq='D') 
ts = Series(np.random.randn(len(rng)), index=rng) 


其 索引 的 tz 字段 为 None: 


In [423]: print(ts.index.tz) 
None 


“在 生成 日 期 泥 围 的 时候 还 不 可 以 加 上 一 个 时 区 


mi 


In [424]: pd.date_range('3/9/2012 9:30', periods=10, 
freq='D', tz='UTC') 


Out[424]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00, ..., 2012-03-18 09:30:00] 


Length: 10, Freq: D, Timezone: UTC 


从 单纯 到 本 地 化 的 转换 是 通过 tz_localize 方 法 
处 理 的 ]: 


In [425]: ts_utc = ts.tz_localize('UTC') 


In [426]: ts_utc 
Out[426]: 


2012-03-09 09:30:00+00:00 0.414615 
2012-03-10 09:30:00+00:00 0.427185 
2012-03-11 09:30:00+00:00 1.172557 
2012-03-12 09:30:00+00:00 -0.351572 
2012-03-13 09:30:00+00:00 1.454593 
2012-03-14 09:30:00+00:00 2.043319 
Freq: D 

In [427]: ts_utc.index 

Out[427]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00, ..., 2012-03-14 09:30:00] 


Length: 6, Freq: D, Timezone: UTC 


一 旦 时 间 序 列 被 本 地 化 到 某 个 特定 时 区 ， 器 
可 以 用 tz_convert 将 其 转换 到 别 的 时 区 了 : 


In [428]: ts_utc.tz convert('US/Eastern') 
Out[428]: 


2012-03-09 04:30:00-05:00 0.414615 
2012-03-10 04:30:00-05:00 0.427185 
2012-03-11 05:30:00-04:00 1.172557 
2012-03-12 05:30:00-04:00 -0.351572 
2012-03-13 05:30:00-04:00 1.454593 
2012-03-14 05:30:00-04:00 2.043319 


Freq: D 


对 于 上 面 这 种 时 间 序 列 〈 它 跨越 了 美国 东部 
时 区 的 夏令 时 转变 期 ) ， 我 们 可 以 将 其 本 地 化 到 
EST， 然 后 转换 为 UTC 或 柏林 时 间 : 


In [429]: ts_eastern = ts.tz_localize('US/Eastern') 


In [430]: ts_eastern.tz convert('UTC') 
Out[430] : 


2012-03-09 14:30:00+00:00 0.414615 
2012-03-10 14:30:00+00:00 0.427185 
2012-03-11 13:30:00+00:00 1.172557 
2012-03-12 13:30:00+00:00 -0.351572 
2012-03-13 13:30:00+00:00 1.454593 
2012-03-14 13:30:00+00:00 2.043319 


Freq: D 


In [431]: ts_eastern.tz convert('Europe/Berlin') 
Out[431]: 


2012-03-09 15:30:00+01:00 0.414615 
2012-03-10 15:30:00+01:00 0.427185 
2012-03-11 14:30:00+01:00 1.172557 
2012-03-12 14:30:00+01:00 -0.351572 
2012-03-13 14:30:00+01:00 1.454593 
2012-03-14 14:30:00+01:00 2.043319 


Freq: D 


tz_localize 和 tz_convert 也 是 DatetimeIndex 的 实 


例 方 法 : 


In [432]: ts.index.tz_localize('Asia/Shanghai') 
Out[432]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00, ..., 2012-03-14 09:30:00] 
Length: 6, Freq: D, Timezone: Asia/Shanghai 


警告 : 对 单纯 时 间 惟 的 本 地 化 操作 还 会 检查 
夏令 时 转变 期 附近 容易 混淆 或 不 存在 的 时 间 。 


操作 时 区 意识 型 Timestamp 对 和 象 


跟 时 间 序 列 和 日 期 范围 差不多 ，Timestamp 对 
象 也 能 被 从 单纯 型 (naive) 本 地 化 为 时 区 意识 型 
(time zone-aware) ， 并 从 一 个 时 区 转换 到 另 一 
个 时 区 : 


In [433]: stamp = pd.Timestamp('2011-03-12 04:00  ) 
In [434]: stamp_utc = stamp.tz_ localize('utc') 


In [435]: stamp_utc.tz convert('US/Eastern') 
Out[435]: <Timestamp: 2011-03-11 23:00:00-0500 EST, 
tz=US/Eastern> 


在 创建 Timestamp 时 ， 还 可 以 传 入 一 个 时 区 信 


/LN。 


In [436]: stamp_moscow = pd.Timestamp('2011-03-12 04:00 '， 
tz="'Europe/Moscow') 


In [437]: stamp_moscow 
Out[437]: <Timestamp: 2011-03-12 04:00:00+0300 MSK, 
tz=Europe/Moscow> 


时 区 意识 型 Timestamp 对 象 在 内 部 保存 了 一 个 
UTC 时 间 惟 值 ( 自 UNIX 纪 元 (1970 年 1 月 1 日 ) 算 
起 的 纳 秒 数 ) 。 这 个 UTC 值 在 时 区 转换 过 程 中 是 
“会 发 生变 化 的 : 


In [438]: stamp_utc.value 
Out[438]: 1299902400000000000 


In [439]: stamp_utc.tz convert('US/Eastern').value 
Out[439]: 1299902400000000000 


当 使 用 pandas 的 DateOffset 对 象 执 行 时 间 算 术 
运算 时 ， 运 算 过 程 会 日 动 天 注 是 否 存 在 夏令 时 转 


变 期 ; 


# 夏令 时 转 下 前 30 分 钙 


In [440]: from pandas.tseries.offsets import Hour 


In [441]: stamp = pd.Timestamp('2012-03-12 01:30 '， 
tz="'US/Eastern') 


In [442]: stamp 
Out[442]: <Timestamp: 2012-03-12 01:30:00-0400 EDT, 
tz=US/Eastern> 


In [443]: stamp + Hour() 
Out[443]: <Timestamp: 2012-03-12 02:30:00-0400 EDT, 
tz=US/Eastern> 


# 夏令 时 转变 前 90 分 钟 
In [444]: stamp = pd.Timestamp('2012-11-04 00:30 '， 
tz="'US/Eastern') 


In [445]: stamp 

Out[445]: <Timestamp: 2012-11-04 00:30:00-0400 EDT, 
tz=US/Eastern> 

In [446]: stamp + 2 * Hour() 


Out[446]: <Timestamp: 2012-11-04 01:30:00-0500 EST, 
tz=US/Eastern> 


不 同时 区 之 则 的 运算 


”如 果 两 个 时 间 序 列 的 时 区 不 同 ， 在 将 它们 合 
并 到 一 起 时 ， 最 终结 果 就 会 是 UTC。 由 于 时 间 截 


其 实生 以 UTC 存储 的 ， 所 以 这 是 一 个 很 商 单 的 运 
算 ， 并 不 需要 发 生 任 何 转换 : 


In [447]: rng = pd.date_ range('3/7/2012 9:30', periods=10, 
freq='B') 


In [448]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [449]: ts 


Out[449]: 

2012-03-07 09:30:00 -1.749309 
2012-03-08 09:30:00 -0.387235 
2012-03-09 09:30:00 -0.208074 
2012-03-12 09:30:00 -1.221957 
2012-03-13 09:30:00 -0.067460 
2012-03-14 09:30:00 0.229005 
2012-03-15 09:30:00 -0.576234 
2012-03-16 09:30:00 0.816895 
2012-03-19 09:30:00 -0.772192 
2012-03-20 09:30:00 -1.333576 
Freq: B 


In [450]: tsi 


ts[:7].tz_localize('Europe/London') 


In [451]: ts2 ts1i[2:].tz_convert('Europe/Moscow') 
In [452]: result = tsi + ts2 


In [453]: result.index 


Out[453]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-07 09:30:00, ..., 2012-03-15 09:30:00] 


Length: 7, Freq: B, Timezone: UTC 


圣 注 6: 也 吕 时 区 信息 数据 库 ， 以 创始 人 David 
Olson 命 名 


时 期 及 只 算术 运 划 


时 期 (period) 表示 的 是 时 间 区 间 ， 比 如 数 

日 、 数 月 、 数 季 、 数 年 等 。Period 类 所 表示 的 就 是 
这 种 数据 类 型 ， 其 构造 丽 数 需要 用 到 一 个 字符 串 
或 整数 ， 以 及 表 10-4 中 的 频率 : 


In [454]: p = pd.Period(2007，freq='A-DEC ' ) 


In [455]: p 
Out[455]: Period('2007', 'A-DEC') 


这 个 Period 对 象 表示 的 是 从 2007 年 1 月 1 日 到 
2007 年 12 月 31 日 之 间 的 整 段 时 间 。 只 需 对 Period 对 
象 加 上 或 减 去 一 个 整数 即 可 达到 根据 其 频率 进行 
位 移 的 效果 : 


In [456]: p + 5 In [457]: p - 2 
Out[456]: Period('2012', 'A-DEC') Out[457]: Period('2005 ' ， 
'A-DEC' ) 


如 各 两 个 Period 对 象 拥有 相同 的 频率 ， 则 它们 
的 差 束 是 它们 之 间 的 单位 数量 : 


In [458]: pd.Period('2014', freq='A-DEC') - p 
Out[458]: 7 


period_range 芳 数 可 用 于 创建 规则 的 时 期 范 
: 


In [459]: rng = pd.period_range('1/1/2000', '6/30/2000 ' ， 
freq='M' ) 


In [460]: rng 


Out[460]: 

<class 'pandas.tseries.period.PeriodIindex'> 
freq: M 

[2000-01, ..., 2000-06] 

length: 6 


PeriodIndex 类 保存 了 一 组 Period， 它 可 以 在 任 
何 pandas 数 据 结构 中 和 被 用 作 轴 索引 : 


In [461]: Series(np.random.randn(6), index=rng) 
Out[461] : 

2000-01 -0.309119 

2000-02 0.028558 

2000-03 1.129605 

2000-04 -0.374173 

2000-05 -0.011401 

2000-06 0.272924 

Freq: M 


PeriodIndex 类 的 构造 画 数 还 允许 直接 使 用 一 
组 字符 串 : 


In [462]: values = [2001Q3', "2002027， "2003Q1'] 
In [463]: index = pd.PeriodIindex(values, freq='Q-DEC') 


In [464]: index 


Out[464] : 

<class 'pandas.tseries.period.PeriodIindex'> 
freq: Q-DEC 

[2001Q3,，..., 2003Q1] 

length: 3 


时 期 的 频率 转换 


Period 和 PeriodIndex 对 象 都 可 以 通过 其 asfreq 
方法 被 转换 成 噶 的 频率 。 假 设 我 们 有 一 个 年 度 时 
期 ， 布 望 将 其 转换 为 当年 年 初 或 年 末 的 一 个 月 度 
时 期 。 该 任务 非常 便 早 : 


In [465]: p = pd.Period('2007', freq='A-DEC') 


In [466]: p.asfreq('M', how='start') In [467]: 
p.asfreq('M', how='end') 
Out[466]: Period('2007-01', 'M') Out[467]: 


Period('2007-12', 'M') 


你 可 以 将 Period(2007''A-DEC') 看 做 一 个 被 划 
分 为 多 个 月 度 时 期 的 时 间 段 中 的 游标 。 图 10-1 对 
此 进行 了 说 明 。 对 于 一 个 不 以 12 月 结束 的 财政 年 
度 ， 月 度 子 时 期 的 归属 情况 承 不 一 样 了 : 


In [468]: p = pd.Period('2007', freq='A-JUN') 


In [469]: p.asfreq('M', 'start') In [470]: 
p.asfreq('M', 'end') 
Out[469]: Period('2007-06', 'M') Out[470]: 


Period('2007-06', 'M') 


在 将 高 频率 转换 为 低频 率 时 ， 超 时 期 
(superperiod) 是 由 子 时 期 (subperiod) 所 属 的 位 
置 决定 的 。 例 如 ， 在 A-JUN 频 率 中 ， 月 份 “2007 年 
8 月 ”实际 上 征 属于 周期 “2008 年 > 的: 


In [471]: p = pd.Period('2007-08', 'M') 


In [472]: p.asfreq('A-JUN') 
Out[472]: Period('2008', 'A-JUN') 


PeriodIndex 或 TimeSeries 的 频率 转换 方式 也 是 
如 此 : 


In [473]: rng = pd.period_range('2006', '2009', freq="'A-DEC') 
In [474]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [475]: ts 


Out[475]: 

2006 -0.601544 
2007 0.574265 
2008 -90.194115 
2009 0 .202225 
Freq: A-DEC 


In [476]: ts.asfreq('M', how='start') In [477]: 
ts.asfreq('B', how='end') 


Out[476] : Out[477] : 
2006-01 -0.601544 2006-12-29 
-0.601544 

2007-01 0.574265 2007-12-31 
0.574265 

2008-01 -0.194115 2008-12-31 
-0.194115 

2009-01 0.202225 2009-12-31 
0 .202225 

Freq: M Freq: B 


Period('2011-06, 'M') 
Start End 


! ! 
因由 四 四 四 四 加 
LL | 


Period('2011, A-DEC') 


图 10-1: Period 频 率 转 换 示 例 


按 季度 计算 的 时 期 频率 


季度 型 数据 在 会 计 、 人 金融 等 领域 中 很 销 见 。 
许多 季度 型 数据 都 会 涉及 “ 财 年 来 ”的 概念 ， 通 篆 
是 一 年 12 个 月 中 某 月 的 最 后 一 个 日 历 日 或 工作 
日 。 束 这 一 点 来 说 ， 时 期 "2012Q4" 根 据 财 年 末 的 
不 同 会 有 不 同 的 含义 。pandas 支 持 12 种 可 能 的 季度 
型 频率 ， 即 Q-JAN 到 Q-DEC: 


In [478]: p = pd.Period('2012Q4', freq='Q-JAN') 


In [479]: p 
Out[479]: Period('2012Q4', 'Q-JAN') 


在 以 1 月 结束 的 财 年 中 ，2012Q4 是 从 11 月 到 1 
月 (将 其 转换 为 日 型 频率 束 明 日 了 ) 。 图 10-2 对 
此 进行 了 说 明 : 
In [480]: p.asfreq('D', 'start') In [481]: 
p.asfreq('D', 'end') 


Out[480]: Period('2011-11-061', 'D') Out[481]: 
Period('2012-01-31', 'D') 


因此 ，Period 之 间 的 算术 运算 会 非常 简单 。 例 
如 ， 要 获取 该 季度 倒数 第 二 个 工作 日 下 午 4 点 的 时 
间 稚 ， 你 可 以 这 样 : 
In [482]: p4pm = (p.asfreq('B', 'e') - 1).asfreq('T', 's')+ 
16 * 60 


In [483]: p4pm 
Out[483]: Period('2012-01-30 16:00'， 'T') 


In [484]: p4pm.to_timestamp() 
Out[484]: <Timestamp: 2012-01-30 16:00:00> 


Year 2012 
M [JAN | FEB | MAR | APR | MAY | JUN LOL | AvG | SEP Toc | NOV | PEC 


QDECL 2 | 2 | ?9 | 204 | 
QsEPE 2 | 7 | 2 | 723 


Q-FEB 


图 10-2: 不 同 季 度 型 频率 之 间 的 转换 


period_range 还 可 用 于 生成 季度 型 范围 。 季 度 
型 气 围 的 算术 运算 也 跟 上 面 是 一 样 的 : 


In [485]: rng = pd.period_range('2011Q3', '2012Q4', freq='Q- 
JAN') 


In [486]: ts = Series(np.arange(len(rng)), index=rng) 


In [487]: ts 
Out[487]: 
2011Q3 
2011Q4 
2012Q1 
2012Q2 
2012Q3 
2012Q4 
Freq: Q-JA 


ORPONPO 


In [488]: new_ rng = (rng.asfreq('B', 'e') - 1).asfreq('T', 
's') + 16 * 60 


In [489]: ts.index = new_rng.to_timestamp() 
In [490]: ts 


out[490] : 
2010-10-28 16:00:00 0 


2011-01-28 
2011-04-28 
2011-07-28 
2011-10-28 
2012-01-30 


将 Timestamp 转 换 为 Period 〈 及 


程 ) 


16 : 
16 : 
16 : 
16 : 
16 : 


00 
00 
00 
00 
00 


:00 
:00 
:00 
:00 
:00 


WUl 人 上 站 


其 反 回 过 


通过 使 用 to_period 方 法 ， 可 以 将 由 时 间 惟 系 
引 的 Series 和 DataFrame 对 象 转换 为 以 时 期 索引 ; 


In [491] : 
freq='M' ) 


In [492]: 
In [493]: 


In [494] : 
Out[494] : 
2000-01-31 
2000-02-29 
2000-03-31 
Freq: M 


In [495]: pts 


Out[495]: 
2000-01 
2000-02 
2000-03 
Freq: M 


rng = pd.date_range( '1/1/2000 '， 


ts = Series(randn(3), index=rng) 


pts = ts.to period() 


ts 


505124 


.954439 


630247 


.505124 
.954439 
.630247 


periods=3, 


由 于 时 期 指 的 是 非 重 要 时 间 区 间 ， 因 此 对 于 
给 定 的 频率 ， 一 个 时 间 蕉 只 能 属于 一 个 时 期 。 新 
PeriodIndex 的 频率 默认 是 从 时 间 截 推 听 而 来 的 ， 


你 也 可 以 指定 任何 别 的 频率 。 绪 果 中 允许 存在 重 
复 时 期 : 


In [496]: rng = pd.date_range('1/29/2000', periods=6, 
freq="D') 


In [497]: ts2 = Series(randn(6), index=rng) 


In [498]: ts2.to period('M') 


Out[498]: 

2000-01 -0.352453 
2000-01 -0.477808 
2000-01 0.161594 
2000-02 1.686833 
2000-02 0.821965 
2000-02 -0.667406 
Freq: M 


要 转换 为 时 间 玲 ， 使 用 to_timestamp 即 可 : 


In [499]: pts = ts.to_ period() 


In [500]: pts 


Out [500]: 

2000-01 -0.505124 
2000-02 2.954439 
2000-03 -2.630247 
Freq: M 


In [501]: pts.to timestamp(how='end ' ) 
Out[501] : 

2000-01-31 -0.505124 

2000-02-29 2.954439 

2000-03-31 -2.630247 

Freq: M 


通过 数组 创建 PeriodIndex 


固定 频率 的 数据 集 通 音 会 将 时 间 信息 分 开 存 
放 在 多 个 列 中 。 例 如 ， 在 下 面 这 个 宏观 经 济 数据 
集中 ， 年 度 和 季度 吏 分 别 存放 在 不 同 的 列 中 : 


In [502]: data = pd.read_csv( "cho08/macrodata.cSsv  ) 


In [503]: data.year In [504]: data.quarter 
Out[503]: Out[504]: 

0 1959 0 1 

1 1959 1 

2 1959 2 3 

3 1959 3 4 

199 2008 199 4 

200 2009 200 1 

201 2009 201 2 

202 2009 202 3 

Name: year, Length: 203 Name: quarter, Length: 203 


将 这 两 个 数组 以 及 一 个 频率 传 入 
PeriodIndex， 束 可 以 将 它们 合并 成 DataFrame 的 一 
SC 

| | : 


In [505]: index = pd.PeriodIndex(year=data.year, 
quarter=data.quarter, freq='Q-DEC') 


In [506]: Index 


Out[506]: 

<class 'pandas.tseries.period.PeriodIindex'> 
freq: Q-DEC 

[1959Q1, ..., 2009Q3] 

length: 203 


In [507]: data.index = index 


In [508]: data.inf] 
Out[508]: 

1959Q1 0.00 
1959Q2 2.34 


1959Q3 2.74 
1959Q4 0.27 


2008Q4 -8.79 
2009Q1 0.94 
2009Q2 3.37 
2009Q3 3.56 
Freq: Q-DEC, Name: infl, Length: 203 


重 采样 及 频率 转 换 


重 采样 (resampling) 指 的 是 将 时 间 序 列 从 一 
个 频率 转换 到 另 一 个 频率 的 处 理 过 程 。 将 高 频率 
数据 聚合 到 低频 率 称 为 降 采 样 

(downsampling ) ， 而 将 低频 率 数 据 转 换 到 高 频 
率 则 称 为 升 采 样 (upsampling) 。 并 不 是 所 有 的 重 
采样 都 能 和 被 划分 到 这 两 个 大 类 中 。 例 如 ， 将 W- 
WED (每 周三 ) 转换 为 W-FRI 既 不 是 降 采样 也 不 
是 升 及 样 。 


pandas 对 象 都 市 有 一 个 resample 方 法 ， 它 是 各 
种 频率 转换 工作 的 主力 函 效 : 


In [509]: rng = pd.date range('1/1/2000', periods=100, 
freq="D') 


In [510]: ts = Series(randn(len(rng)), index=rng) 


In [511]: ts.resample('M', how='mean') 
Out [511]: 

2000-01-31 0.170876 

2000-02-29 0.165020 

2000-03-31 0.095451 

2000-04-30 0.363566 


Freq: M 

In [512]: ts.resample('M'，how='mean'，kind='period ' ) 
Out [512] : 

2000-01 0.170876 

2000-02 0.165020 

2000-03 0,.095451 

2000-04 0.363566 


Freq: M 


resample 是 一 个 灵活 高 效 的 方法 ， 可 用 于 处 理 
非常 大 的 时 间 序 列 。 我 将 通过 一 系列 的 示例 说 明 


其 用 法 。 


表 10-5: resample 方 法 的 参数 


参数 


freq 

how='mean.' 
axis=0 
fill_method=None 


closed='right 


label='right' 


说 明 

表示 重 采 样 频率 的 字符 串 或 Dateoffset， 例 如 'M'、'5min' 或 
Second(15) 

用 于 产生 聚合 值 的 函数 名 或 数组 函数 ， 例 如 'mean'、'ohlc'、 
np.max 等 。 默 认为 'mean'。 其 他 常用 的 值 有 : 'first'、'last'、 
median 、"ohlc、max、'min' 

重 采 样 的 轴 ， 默 认为 axis=0 

升 采样 时 如 何 插 值 ， 比 如 'ffill' 或 'bfil'。 默 认 不 插值 

在 降 采 样 中 ， 各 时 间 段 的 哪 一 端 是 闭合 〈 即 包含 ) 的 ，'right' 或 
eft'。 黑 认为 right 

在 降 采 样 中 ， 如 何 设置 聚合 值 的 标签 ，'right' 或 eft' ( 面 元 的 右边 
界 或 左边 界 ) 。 例 如 ，9:30 到 9:35 之 间 的 这 5 分 钟 会 被 标记 为 9:30 或 
9:35。 默 认为 right' (本 例 中 就 是 9:35 ) 


表 10-5: resample 方 法 的 参数 ( 续 ) 


参数 


loffset=None 


limit=None 


kind=None 


convention=None 


说 明 

面 元 标签 的 时 间 校 正 值 ， 比 如 '-1s' / Second(-1) 用 于 将 聚合 标签 调 
早 1 秒 

在 前 向 或 后 向 填充 时 ， 人 允许 填充 的 最 大 时 期 数 

聚合 到 时 期 ('period') 或 时 间 惟 (timestamp') ， 默 认 聚 合 到 时 
间 序 列 的 索引 类 型 

当 重 采样 时 期 时 ， 将 低频 率 转 换 到 高 频率 所 采用 的 约定 ('start' 或 
end') 。 默 认为 'end' 


附 玉 样 


将 数据 聚合 到 规整 的 低频 率 古 一 件 非 党 普通 
的 时 间 序 列 处 理 任务 。 生 案 合 的 数据 不 必 拥 有 
定 的 频率 ， 期 望 的 频率 会 目 动 定义 聚合 的 面 元 过 
弄 ， 这 些 面 元 用 于 将 时 间 序 列 拆 分 为 多 个 上 户 段 。 
例如 ， 要 转换 到 月 度 频率 ("M' 或 BM') ， 数 据 需 
要 被 划分 到 多 个 单 月 时 间 段 中 。 各 时 间 段 都 是 半 
开放 的 。 一 个 数据 点 只 能 属于 一 个 时 间 段 ， 所 有 
时 间 段 的 并 集 必须 能 组 成 整个 时 间 帧 。 在 用 
I 效 据 进行 降 采 样 时 ， 需 要 考虑 两 样 东 


:各 区 间 哪 边 征 财 合 的 。 


如何 标记 各 个 聚合 面 元 ， 用 区 间 的 开头 还 生 
2 


目 完 ， 我 们 来 看 一 些 “1 分 钟 ” 煞 据 : 


In [513]: rng = pd.date_range('1/1/2000', periods=12, 
freq="T'") 


In [514]: ts = Series(np.arange(12), index=rng) 


In [515]: ts 
Out[515]: 
2000-01-01 00:00:00 
2000-01-01 00:01:00 
2000-01-01 00:02:00 
2000-01-01 00:03:00 
2000-01-01 00:04:00 
2000-01-01 00:05:00 
2000-01-01 00:06:00 
2000-01-01 00:07:00 


WOPOONOPO 


2000-01-01 00:08:00 8 
2000-01-01 00:09:00 9 
2000-01-01 00:10:00 10 
2000-01-01 00:11:00 11 
Freq: 工 


假设 你 想 要 通过 求 和 的 方式 将 这 些 数 据 聚 合 
到 “5 分 钟 ” 块 中 : 


In [516]: ts.resample('S5min', how="'sum') 
Out[516]: 

2000-01-01 00:00:00 0 

2000-01-01 00:05:00 15 

2000-01-01 00:10:00 40 

2000-01-01 00:15:00 11 

Freq: ST 


传 入 的 频率 将 会 以 “5 分 钟 "的 增 量 定义 面 元 边 

寞 。 稚 认 情 况 下 ， 面 元 的 石 边塞 是 包含 的 ， 因 此 
00:00 到 00:05 的 区 间 中 是 包含 00:05 的 二 1。 传 入 
closed='left 会 让 区 加 以 左边 寞 财 合 : 

In [517]: ts.resample('5min', how='sum', closed='left') 

Out[517]: 

2000-01-01 00:05:00 10 

2000-01-01 00:10:00 35 


2000-01-01 00:15:00 21 
Freq: ST 


如 你 所 见 ， 最 终 的 时 间 序 列 是 以 各 面 元 右边 
界 的 时 间 鹤 进行 标记 的 。 传 入 label='eft 即 可 用 面 
元 的 左边 界 对 其 进行 标记 : 


In [518]: ts.resample('5min', how="'sum', closed='left', 
label="'left') 


Out [518] : 
2000-01-01 00:00:00 
2000-01-01 00:05:00 
2000-01-01 00:10:00 
Freq: 5T 


10 
35 
21 


图 10-3 说 明了 “1 分 钟 ”数据 被 转换 为 “5 分 钟 ” 数 


据 的 处 理 过 程 。 


closed- "left’ [Em] 30 | 907 | 903 | 904 | 30 


closed-'right' [900 L907 | 907 | TO | 905 | 


label=" left' label="right" 


图 10-3: 各 种 closed 、 label 约 定 的 “5 分 钟 ” 重 及 样 演 


修 \ 


最 后 ， 你 可 能 希望 对 结果 索引 做 一 些 位 移 ， 
比如 从 右边 界 减 去 一 秒 以 便 更 容易 明白 该 时 间 鹤 
到 压 表 示 的 是 哪个 区 间 。 只 需 通 过 loffset 设 置 一 个 
字 从 串 或 日 期 偏 移 量 即 可 实现 这 个 目的 : 


In [519]: ts.resample('5min', how='sum', loffset="'-1s') 


Out [519]: 
1999-12-31 23:59:59 
2000-01-01 00:04:59 
2000-01-01 00:09:59 
2000-01-01 00:14:59 
Freq: 5T 


0 
15 
40 
11 


此 外 ， 也 可 以 通过 调用 绪 东 对 象 的 shift 方 法 来 
实现 该 目的 ， 这 样 吏 不 需要 设置 loffset 了 。 


OHLC 重 采样 


金融 领域 中 有 一 种 无 所 不 在 的 时 间 序 列 聚 合 
方式 ， 即 计算 各 面 元 的 四 个 值 ， 第 一 个 值 
(open， 开 盘 ) 、 最 后 一 个 值 (close， 收 盘 ) 、 
最 大 值 (high， 最 高 ) 以 及 最 小 值 low， 最 
低 ) 。 传 入 how='ohlc' 即 可 得 到 一 个 舍 有 这 四 种 聚 
合 值 的 DataFrame。 整 个 过 程 很 高 效 ， 只 需 一 次 扫 


摘 即 可 计算 出 结 采 : 


In [520]: ts.resample('5min', how="'ohlc') 


Out[520] : 

open high low close 
2000-01-01 00:00:00 0 0 0 
2000-01-01 00:05:00 1 5 1 5 
2000-01-01 00:10:00 6 10 6 10 
2000-01-01 00:15:00 11 11 11 11 


通过 groupby 进 行 重 采样 


另 一 种 降 采 样 的 办 法 是 使 用 pandas 的 groupby 
功能 。 例 如 ， 你 打算 根据 月 份 或 星期 几 进 行 分 
组 ， 只 需 传 入 一 个 能 够 访问 时 间 序 列 的 索引 上 的 
这 些 字 段 的 函数 即 可 : 


In [521]: rng = pd.date_range('1/1/2000', periods=100, 
freq="D') 


In [522]: ts = Series(np.arange(100), index=rng) 


In [523]: ts.groupby(lambda x: x.month).mean() 


out[523] : 
丰 15 
2 45 
e: 75 
4 95 


In [524]: ts.groupby(lambda x: x.weekday).mean() 


Ol 
© 
OO 


升 采样 和 插值 


在 将 数据 从 低频 率 转换 到 高 频率 时 ， 束 不 需 


要 聚合 了 。 我 们 来 看 一 个 市 有 一 些 周 型 数据 的 


DataFrame: 


In [525]: frame = DataFrame(np.random.randn(2, 4), 
periods=2, freq="'W-WED'), 
'New York', 'Ohio']) 


In [526]: frame[:5] 
Out[526]: 

Colorado Texas New York Ohio 
2000-01-05 -0.609657 -0.268837 0.195592 0.85979 
2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


Index=pd.date_range( '1/1/2000 ' ， 


columns=['Colorado', 'Texas ' ， 


将 其 重 采样 到 日 频率 ， 默 认 会 引入 奥 失 值 : 


In [527]: df daily = frame.resample('D') 


In [528]: df _ daily 


Out[528] : 


2000-01-05 
2000-01-06 
2000-01-07 
2000-01-08 
2000-01-09 
2000-01-10 
2000-01-11 
2000-01-12 


Colorado 
-0.609657 


-0.263206 


Texas 
-0.268837 


1.141350 


New York 
0.195592 


-0 .101937 


假设 你 想 要 用 前 面 的 周 型 值 填充 “ 非 星 期 
三 ”。 resampling 的 填充 和 插值 方式 跟 和 na 和 


reindex 的 一 样 : 


In [529]: frame.resample('D', fill method="'ffill') 


Out[529]: 


2000-01-05 
2000-01-06 
2000-01-07 
2000-01-08 
2000-01-09 
2000-01-10 
2000-01-11 
2000-01-12 


Colorado 
-0.609657 
,609657 
,609657 
,609657 
,609657 
,609657 
,609657 
,263206 


Texas New York 
.268837 0.195592 
.268837 0.195592 
.268837 0.195592 
.268837 0.195592 
.268837 0.195592 
.268837 0.195592 
.268837 0.195592 
.141350 -0.101937 -0， 


©OOOOOoO0oo 


Ohio 


.85979 
.85979 


85979 


.85979 
.85979 
.85979 
,85979 


07666 


同样 ， 这 里 也 可 以 只 填充 指定 的 时 期 数 〈 目 
的 是 限制 前 面 的 观测 值 的 持续 使 用 距离 ) : 


In [530]: frame.resample('D', fill method= 'ffil1'， 


out[530] : 


Colorado 


Texas 


New York 


Ohio 


ITimit=2) 


2000-01-05 -0.609657 -0.268837 0.195592 0.85979 
2000-01-06 -0.609657 -0.268837 0.195592 0.85979 
2000-01-07 -0.609657 -0.268837 0.195592 0.85979 


2000-01-08 NaN NaN NaN NaN 
2000-01-09 NaN NaN NaN NaN 
2000-01-10 NaN NaN NaN NaN 
2000-01-11 NaN NaN NaN NaN 


2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


注意 ， 新 的 日 期 索引 完全 没 必要 跟 旧 的 相 


Het 


Bak 


In [531]: frame.resample( 'W-THU', fill method="'ffill"') 
Out[531] : 

Colorado Texas New York Ohio 
2000-01-06 -0.609657 -0.268837 0.195592 0.85979 
2000-01-13 -0.263206 1.141350 -0.101937 -0.07666 


通过 时 期 进行 重 采 样 


对 那 色 使 用 时 期 乏 引 的 数据 进行 重 采 样 是 件 
非常 简单 的 事情: 


In [532]: frame = DataFrame(np.random.randn(24, 4), 
人 index=pd.period_range('1-2000', 
'12-2001', freq='M'), 
ee columns=['Colorado', 'Texas', 
'New York', 'Ohio']) 


In [533]: frame[:5] 
Out[533] : 

Colorado Texas New York Ohio 
2000-01 0.120837 1.076607 0.434200 0.056432 
2000-02 -0.378890 0.047831 0.341626 1.567920 
2000-03 -0.047619 -0.821825 -0.179330 -0.166675 
2000-04 0.333219 -0.544615 -0.653635 -2.311026 
2000-05 1.612270 -0.806614 0.557884 0.580201 


In [534]: 


In [535]: annual_ 
Out[535] : 
Colorado 


2000 0.352070 -0.553642 
2001 0.158207 0.042967 


升 采 样 要 稍微 麻烦 一 些 ， 


annual_frame = frame.resample('A-DEC', how='mean') 


frame 


Texas New York 


Ohio 


0.196642 -0.094099 
-0.360755 0.184687 


因为 你 必须 决定 在 


新 频率 中 各 区 间 的 哪 》 出 用 于 放置 原来 的 值 驳 像 
asfreq 方 法 那样 。convention 参 数 默 认为 'end'， 可 议 


置 为 'start': 


# Q-DEC: 季度 型 (每 年 以 12 月 结束 ) 


In [536]: annual frame.resample('Q-DEC', 
Out[536]: 

Colorado Texas New York 
2000Q4 0.352070 -0.553642 0.196642 -0. 
2001Q1 0.352070 -0.553642 0.196642 -0. 
2001Q2 0.352070 -0.553642 0.196642 -0. 
2001Q3 0.352070 -0.553642 0.196642 -0. 
2001Q4 0.158207 0.042967 -0.360755 0， 
In [537]: annual frame.resample('Q-DEC', 
convention='start') 
Out[537]: 

Colorado Texas New York 
2000Q1 0.352070 -0.553642 0.196642 -0. 
2000Q2 0.352070 -0.553642 0.196642 -0. 
2000Q3 0.352070 -0.553642 0.196642 -0. 
2000Q4 0.352070 -0.553642 0.196642 -0. 
2001Q1 0.158207 0.042967 -0.360755 0， 


fill method="'ffill') 


Ohio 
094099 
094099 
094099 
094099 
184687 


fill method="'ffill"', 


Ohio 
094099 
094099 
094099 
094099 
184687 


由 于 时 期 指 的 是 时 间 区 间 ， 所 以 升 采 样 和 降 
采样 的 规则 吏 比 较 产 格 : 


在 降 采 样 中 ， 目 标 频 率 必 须 是 源 频 率 的 和 于 时 
期 (subperiod ) o 


:在 升 末 样 中 ， 目 标 频 京 必须 是 源 频 率 的 超时 
期 (superperiod) 。 


如 朱 不 满足 这 芋 条 件 ， 吏 会 引发 异常 。 这 主 
、 A SA 
要 影响 的 是 按 季 、 年 、 周 计算 的 频率 。 例 如 ， 由 
\ 人 v7 » YY 
Q-MAR 定 义 的 时 间 区 间 只 能 升 采 样 为 A-MAR、A- 
JUN、A-SEP、A-DEC 等 : 
In [538]: annual_ frame.resample('Q-MAR', fill method="'ffill') 
Out[538]: 
Colorado Texas New York Ohio 
2001Q3 0.352070 -0.553642 0.196642 -0.094099 
2001Q4 0.352070 -0.553642 0.196642 -0.094099 
2002Q1 0.352070 -0.553642 0.196642 -0.094099 


2002Q2 0.352070 -0.553642 0.196642 -0.094099 
2002Q3 0.158207 0.042967 -0.360755 0.184687 


注 1: closed='right'、label='right' 这 两 个 默认 值 可 能 
会 让 部 分 用 户 感 到 奇怪 。 在 实际 工作 当中 ， 这 两 
个 移 项 的 值 比较 随意 。 对 于 某 些 目标 频率 ,cl1os 
e d=1] eft 会 更 好 ， 而 对 于 其 他 的 ， 则 
closed=Tight 才 更 为 合理 。 你 真正 应 该 天 注 的 是 要 
如 何 对 数据 分 段 。 


上 肝 间 序列 绘图 


pandas 时 间 序 列 的 绘图 功能 在 日 期 格式 化 方面 
比 matplotlib 原 生 的 要 好 。 求 看 下 面 这 个 例 和 于， 我 
先 从 Yahoo!Finance 下 载 7 儿 只 美国 股票 的 一 些 价 
格 数 据 : 


In [539]: close px_all = pd.read csv('ch09/stock px.csv', 
parse_dates=True, index_col=0) 


In [540]: close px = close px_all[['AAPL', 'MSFT', 'XOM']] 


In [541]: close px = close px.resample('B', 
fill method="'ffill') 


In [542]: close_px 

Out[542] : 

<class 'pandas .core.frame.DataFrame '> 
DatetimeIndex: 2292 entries, 2003-01-02 00:00:00 to 2011-10- 
14 00:00:00 

Freq: B 

Data columns: 

AAPL 2292 non-null values 

MSFT 2292 non-null values 

XOM 2292 non-null values 

dtypes: float64(3) 


对 其 中 任意 一 列 调用 plot 即 可 生成 一 张 简单 的 
图 表 ， 如 图 10-4 所 示 。 


In [544]: close_ px['AAPL'] .plot() 


了 
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图 10-4: AAPL 每 日 价格 


当 对 DataFrame 调 用 plot 时 ， 所 有 时 间 序 列 都 
会 极 绘制 在 一 个 subplot 上 ， 并 有 一 个 图 例 说 明 哪 
个 是 哪个 。 这 里 我 只 绘制 了 2009 年 的 数据 ， 如 图 
10-5 所 示 ， 月 份 和 年 度 都 被 格式 化 到 了 X 轴 上 。 


In [546]: close_px,Ix['2009'].plot() 


图 10-5: 2009 年 的 股票 价格 
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图 10-6: 苹果 公司 在 2011 年 1 月 到 3 月 间 的 每 日 股价 


图 10-6 展 示 了 苹果 公司 在 2011 年 1 月 到 3 月 间 的 
日 股价 。 


In [548]: close_ px['AAPL'] .ix['01-2011':'03-2011'] .plot() 


季度 型 频率 的 数据 会 用 季度 标记 进行 格式 
化 ， 这 种 事情 如 果 纯 手工 做 的 话 那 是 很 费 精力 
的 。 如 图 10-7 所 示 。 
In [550]: appl q = close px['AAPL'|].resample('Q-DEC', 
fill] method="'ffill') 


In [551]: appl _q.ix['2009':].plot() 


pandas 时 间 序 列 在 绘图 方面 还 有 一 个 特点 : 当 
右键 点 击 二 二 7 并 拖拉 〈 放 大、 缩小 ) 时 ， 日 期 会 
动态 展开 或 收缩 ， 且 绘图 窗口 中 的 时 间 区 间 会 被 


重新 格式 化 。 当 然 ， 只 有 在 交互 模式 下 使 用 
matplotlib 才 会 有 此 将 末 。 


1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Qi Q2 Q3 Q4 
2009 2010 2011 


图 10-7: 苹果 公司 在 2009 年 到 2011 年 间 的 每 季度 股 
价 
译注 7: 应 该 是 按 住 (hold) 而 不 是 点 击 
(click) 。 


移动 窗口 鲁 数 


在 移动 窗口 (可 以 带 有 指数 衰减 权 数 ) 上 计 
算 的 各 种 统计 函数 也 是 一 类 常见 于 时 间 序 列 的 数 
组 变换 。 我 将 它们 称 为 移动 窗口 钞 数 (moving 
window function) ， 其 中 还 包括 那些 窗口 不 定 长 的 
函数 (如 指数 加 权 移 动 平均 ) 。 跟 其 他 统计 函数 
一 样 ， 移 动 窗口 函数 也 会 自动 排除 缺失 值 。 


。 日 三 册 czas 本 ri 
rolling_mean 是 其 中 最 镜 单 的 一 个 。 它 接受 
个 TimeSeries 或 DataFrame 以 及 一 个 window (表示 
期 数 ) : 
In [555]: close px.AAPL.plot() 
Out[555]: <matplotlib.axes.AxesSubplot at Ox1099b3990> 


In [556]: pd.rolling mean(close_ px.AAPL, 250).plot() 


结果 如 图 10-8 所 示 。 默 认 情 况 下 ， 诸 如 
rolling_mean 这 样 的 函数 需要 指 定数 量 详 注 8 的 ENA 
观测 值 。 可 以 修改 该 行为 以 解决 缺失 数据 的 问 
题 。 其 实 ， 在 时 间 序 列 开 始 处 疝 不 足 袜 口 期 的 那 
些 数据 就 是 个 特例 〈 见 图 10-9) : 
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10-8: 苹果 公司 股价 的 250 日 均线 


In [558]: appl_std250 = pd.rolling_std(close_ px.AAPL, 250, 


min_periods=10) 


In [559]: appl_ std250[5:12] 


Out[559]: 

2003-01-09 NaN 
2003-01-10 NaN 
2003-01-13 NaN 
2003-01-14 NaN 


2003-01-15 0.077496 
2003-01-16 0.074760 
2003-01-17 0.112368 
Freq: B 


In [560]: appl_ std250.plot() 
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图 10-9: 苹果 公司 250 日 每 日 回报 标准 差 


要 计算 扩展 窗口 平均 (expanding window 
mean) ， 你 可 以 将 扩展 窗口 看 做 一 个 特殊 的 窗 
口 ， 其 长 度 与 时 间 序 列 一 样 ， 但 只 需 一 期 (或 多 
期 译注 9) 即 可 计算 一 个 值 : 
# 通过 roIIing _mean 定 又 扩展 平 殉 


In [561]: expanding_mean = lambda x: rolling mean(x, len(x), 
min_periods=1) 


对 DataFrame 调 用 rolling_mean (以 及 与 之 类 似 
+ 会 将 转换 应 用 到 所 有 的 列 上 〈 见 图 10- 
10) : 


In [563]: pd.rolling _ mean(close px, 60).plot(logy=True) 
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图 10-10: 各 股价 60 日 均线 (对 数 Y 轴 ) 
表 10-6 中 列 出 了 pandas 中 的 此 类 函数 。 


表 10-6: 移动 窗口 和 指数 加 权 函 数 


函数 说 明 

rolling_count 返回 各 窗口 非 NA 观 测 值 的 数量 

rolling_sum 移动 窗口 的 和 

rolling_mean 移动 窗口 的 平均 值 

rolling_median 移动 窗口 的 中 位 数 

rolling_var、 rolling_std 移动 窗口 的 方差 和 标准 差 。 分 母 为 n -1 
rolling_skew、olling_kurt 移动 窗口 的 偏 度 〈 三 阶 憩 ) 和 峰 度 (四 阶 矩 ) 
rolling_min、 rolling_max 移动 窗口 的 最 小 值 和 最 大 值 

rolling_quantile 移动 窗口 指定 百 分 位 数 /样本 分 位 数位 置 的 值 
rolling_corr、 rolling_cov 移动 窗口 的 相关 系数 和 协 方差 

rolling_apply 对 移动 窗口 应 用 普通 数组 函数 

ewma 指数 加 权 移 动 平 均 

ewmvar、ewmstd 指数 加 权 移 动 方差 和 标准 差 
ewmcorr、ewmcov 指数 加 权 移 动 相关 系数 和 协 方 差 


注意 :”bottleneck (由 Keith Goodman 制 作 的 
Python 库 ) 提供 了 男 一 种 对 NaN 友 好 的 移动 窗口 EE 
2 。 值 得 一 看 ， 说 不 定 能 在 你 的 工作 中 派 上 用 


指数 加 权 函 数 


男 一 种 使 用 固定 大 小 窗口 及 相等 权 数 观测 值 
的 办 法 是 ， 定 义 一 个 衰减 因子 (decay factor) 常 
量 ， 以 便 使 近期 的 观测 值 拥 有 更 大 的 权 数 。 用 数 
学 术语 来 讲 ， 如 有 果 mat 古 时 间 t 的 移动 平均 结果 ,x 
是 时 间 序 列 ， 结 果 中 的 各 个 值 可 用 mat =a*mat-1+ 


车 


(a -1)*x-t 进 行 计算 ， 其 中 a 为 惨 减 因子 。 有 惨 减 因子 
的 定义 方式 有 很 多 ， 比 较 流行 的 是 使 用 时 间 间 隐 

(span) ， 它 可 以 使 结 采 兼容 于 窗口 大 小 等 于 时 
间 间 隔 的 人 简单 移动 窗口 (simple moving window) 
闻 数 。 


由 于 指数 加 权 统 计 会 贩子 近期 的 观测 信 更 大 
的 权 数 ， 因 此 相对 于 等 权 统计 10， 它 能 “ 适 
应 ”更 快 的 变化 。 下 面 这 个 例子 对 比 了 苹 末 公司 股 
价 的 60 日 移动 平均 和 span=60 的 指数 加 权 移 动 平均 
(如 图 10-11 所 示 ) 

fig, axes = plt.subplots(nrows=2, ncols=1, sharex=True, 

sharey=True, figsize=(12, 7)) 

aapl px = close px.AAPL['2005':'2009'] 


ma60 = pd.rolling _ mean(aapl px, 60, min_periods=50) 
ewma60 = pd.ewma(aapl_ px, span=60) 


aapl_ px.plot(style='k-', ax=axes[0]) 


ma60.plot(style='k--', ax=axes[0]) 
aapl_ px.plot(style='k-', ax=axes[1]) 
ewma60 .plot(style='k--', ax=axes[1]) 


axes[0].set_ title('Simple MA') 
axes[1].set_ title('Exponentially-weighted MA') 
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图 10-11: 催 音 移动 平均 与 指 效 加 权 移 动 平 均 
二 元 移动 窗口 范 数 


有 些 统计 运算 (如 相关 系数 和 协 方差 ) 需 


在 两 个 时 间 序 列 上 执行 。 例 如 ， 人 金融 分 析 师 第 第 
对 某 只 股票 对 某 个 参考 指数 (如 标准 普尔 500 指 
数 ) 的 相关 系数 感 兴趣 。 我 们 可 以 通过 计算 百 分 
数 变化 并 使 用 rolling_corr 的 方式 得 到 该 结果 (如 
10-12 所 示 ) 


In 


In 


[569] : 
[570]: 
[571] : 


[572] : 


spx_px = close px_ all ['SPX'] 
spx_rets = spx_px / spx_px.shift(1) - 1 
returns = close_px.pct_change() 


corr = pd.rolling corr(returns.AAPL, spx_rets, 125, 


min_periods=100 ) 


In [573]: corr.plot() 
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图 10-12: AAPL 6 个 月 的 回报 与 标准 普尔 500 指 数 
的 相关 系数 


假设 你 想 要 一 次 性 计算 多 只 股票 与 标准 普尔 

500 指 数 的 相关 系数 。 虽 然 编 写 一 个 循环 并 新 建 一 
个 DataFrame 不 是 什么 难事 ， 但 比较 唆 。 其 实 ， 只 
需 传 入 一 个 TimeSeries 和 一 个 DataFrame， 
rolling_corr 束 会 自动 计算 TimeSeries (本 例 中 就 是 
spx_rets) 与 DataFrame 各 列 的 相关 系数 。 结 果 如 图 
10-13 所 示 : 

In [575]: corr = pd.rolling corr(returns, spx_rets, 125, 

min_periods=100 ) 


In [576]: corr.plot() 
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图 10-13: 3 只 股票 6 个 月 的 回报 与 标准 普尔 500 指 
数 的 相关 系数 


用 户 定义 的 移动 窗口 范 效 


rolling_apply 函 效 使 你 能 够 在 移动 窗口 上 应 用 
目 己 设计 的 数组 芳 数 。 唯 一 要 来 的 束 是 :该 男 数 
要 能 从 数组 的 各 个 搬 段 中 产生 单个 值 〈 即 约 
徐 ) 。 比 如 说 ， 当 我 们 用 rolling_quantile 计 算 样 本 
分 位 数 时 ， 可 能 对 样本 中 特定 值 的 百 分 等 级 感 兴 
趣 。scipy.stats.percentileofscore 罚 数 束 能 达到 这 个 
目的 : 
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图 10-14: AAPL 2% 回 报 率 的 百 分 等 级 (一 年 窗口 
期 ) 


In [578]: from scipy.stats import percentileofscore 


In [579]: score at 2percent = lambda x: percentileofscore(x, 
0.02) 


In [580]: result = pd.rolling apply(returns.AAPL, 250, 
Score_at_2percent ) 


In [581]: result.plot() 
详 注 8: 这 十 针对 窗口 而 客 的 ， 即 一 个 窗口 里 面 必 
须 有 多 少 个 非 NA 值 。 
译注 9: 不 设置 整 全 空 ， 也 不 要 太 大 ， 大 了 束 无 意 
-A 
详 注 10: 束 古 不 加 权 的 普通 移动 平均 。 


性 能 和 内 存 使 用 方面 的 注意 事项 


Timestamp 和 Period 都 是 以 64 位 整数 表示 的 
( 即 NumPy 的 datetime64 数 据 类 型 ) 。 也 就 是 说 ， 
对 于 每 个 数据 点 ， 其 时 间 截 需要 占用 8 字 蔬 的 内 
存 。 因 此 ， 售 有 一 百 万 个 float64 数 据点 的 时 间 序 
列 需 要 占用 大 约 16MB 的 内 存 空间 。 由 于 pandas 会 
尽量 在 多 个 时 间 序列 之 间 共 孚 索引 ， 所 以 创建 现 
有 时 间 序 列 的 视图 不 会 占用 更 多 内 存 一 :1 。 此 
外 ， 低 频率 索引 (日 以 上 ) 会 被 存放 在 一 个 中 心 
缓存 中 ， 所 以 任何 固定 频率 的 索引 都 是 该 日 期 组 
存 的 人 视图。 所 以 ， 如 果 你 有 一 个 很 大 的 低频 率 时 
间 友 列 ， 索 引 所 占用 的 内 存 空间 将 不 会 很 大 。 


性 能 方面 ，pandas 对 数据 对 齐 (两 个 不 同 索 
引 的 tsl+ts2 的 幕后 工作 ) 和 重 采 样 运算 进行 了 高 
度 优 化 。 下 面 这 个 例子 将 一 亿 个 数据 点 聚合 大 
OHLC: 


In [582]: rng = pd.date _ range('1/1/2000', periods=10000000, 
freq='10ms"') 


In [583]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [584]: ts 
Out[584]: 

2000-01-01 00:00:00 -1.402235 
2000-01-01 00:00:00.010000 2.424667 
2000-01-01 00:00:00.020000 -1.956042 


2000-01-01 00:00:00.030000 -0.897339 


2000-01-02 03:46:39.960000 0.495530 
2000-01-02 03:46:39.970000 0.574766 
2000-01-02 03:46:39.980000 1.348374 
2000-01-02 03:46:39.990000 0.665034 
Freq: 10L，Length: 10000000 


In [585]: ts.resample('1i5min', how='ohlc') 

Out[585]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 113 entries, 2000-01-01 00:00:00 to 2000-01- 
02 04:00:00 


Freq: 15T 

Data columns: 

open 113 non-null values 
high 113 non-null values 
J]ow 113 non-null values 
close 113 non-null values 


dtypes: float64(4) 


In [586]: %timeit ts.resample('15min', how='ohlc') 
10 loops, best of 3: 61.1 ms per loop 


运行 时 间 跟 聚合 结果 的 相对 大 小 有 一 定 关 
系 ， 越 局 频率 的 缘 合 所 耗费 的 时 间 越 多 : 
In [587]: rng = pd.date_ range('1/1/2000', periods=10000000, 
freq='1s') 
In [588]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [589]: %timeit ts.resample('15s', how='ohlc') 
1 loops, best of 3: 88.2 ms per loop 


可 能 在 你 阅读 本 书 的 时 候 ， 这 些 算法 的 性 能 
已 经 大 为 改进 了 。 比 如 说 ， 目 前 并 没有 对 规则 频 
率 之 间 的 转换 做 任何 优化 ， 但 这 肯定 是 要 做 的 。 


译注 11: 原文 吏 征 这 么 表达 的 。 我 感到 很 不 解 ， 
既然 下 视图 ， 当 然 不 会 占用 多 少 内 容 ， 毕 竞 束 是 
比 单个 指针 六 点 的 东 四 而 已 。 绪 合 上 下 文 来 看 ， 
估计 说 的 只 是 索引 的 问题 。 


第 11 草 ”金融 和 经 济 数 据 应 用 


从 2005 年 开始 ，Python 在 金融 行业 中 的 应 用 

越 来 越 多 ， 这 主要 得 益 于 众多 成 熟 的 函数 库 

(NumPy 和 pandas) 以 及 大 量 经 验 丰 富 的 Python 
程序 员 。 许 多 机 构 都 发 现 Python 不 仅 非 常 适 合成 
为 交互 式 的 分 析 环 境 ， 也 非常 适合 开发 稳健 的 系 
统 ， 而 且 所 需 的 时 间 比 Java 或 C++ 少 得 多 。Python 
还 是 一 种 非常 好 的 粘 合 屋 ， 可 以 非常 轻松 地 为 C 
或 C++ 编写 的 库 构 建 Python 接口 。 


金融 分 析 领 域 的 内 容 博大 精深 ， 甚 至 拿 一 整 
本 书 来 讲 痢 不 为 过 ， 在 这 里 我 只 是 希望 各 诉 你 如 
何 利 用 本 书 中 的 工具 去 解决 金融 领域 中 的 一 些 特 
殊 问 题 。 跟 其 他 的 研究 和 分 析 领 域 一 样 ， 在 数据 
规整 化 方面 所 化 费 的 精力 第 第 会 比 解 决 核心 建 模 
和 人 研 哆 问题 所 化 塌 的 要 多 得 多 。 束 是 因为 找 不 到 
合适 的 数据 处 理工 具 ， 所 以 我 才 在 2008 年 开始 创 


pandas 的 。 


在 本 章 的 示例 中 ， 我 将 使 用 术语 “ 截 
面 ” (cross-section) 来 表示 某 个 时 间 点 的 数据 。 
例如 ， 标 准 普尔 500 指 数 中 所 有 成 分 股 在 特定 日 期 
的 收盘 价 就 形成 了 一 个 截面 。 多 个 数据 项 (例如 
价格 和 成 交 量 ) 在 多 个 时 间 点 的 截面 数据 就 构成 


了 一 个 面板 (panel) 。 面 板 数 据 既 可 以 被 表示 为 
层次 化 索引 的 DataFrame， 也 可 以 被 表示 为 三 维 的 
Panel pandas 对 象 。 


数据 规整 化 方面 的 话题 


前 面 儿 章 中 陆 陆 续 续 介绍 过 一 些 不 错 的 数据 
规整 化 工具 。 这 里 ， 我 将 看 重 介绍 一 些 跟 金 融 问 
题 域 有 关 的 话题 。 


时 间 序 列 以 及 截面 对 齐 


在 处 理 金 融 数 据 时 ， 最 费 神 的 一 个 问题 束 是 
所 谓 的 “数据 对 齐 ” (data alignment) 问题 。 两 个 
相关 的 时 间 序 列 的 索引 可 能 没有 很 好 的 对 齐 ， 或 
两 个 DataFrame 对 和 象 可 能 含有 不 匹配 的 列 或 行 。 
MATLAB、R 以 及 其 他 矩阵 编程 语言 的 用 户 常 当 
需要 花费 大 量 的 精力 将 数据 规整 化 为 完全 对 齐 的 
形式 。 以 我 的 经 验 来 看 ， 手 工 处 理 数据 对 齐 问 题 
是 一 件 令 人 非常 郁 问 的 工作 ， 而 验证 数据 是 否 对 
齐 则 还 要 更 郁 站 一些。 不 仅 如 此 ， 合 并 未 对 齐 的 
数据 还 很 有 可 能 市 来 各 种 bug。 


pandas 可 以 在 算术 运算 中 目 动 对 齐 数据 。 在 
实际 工作 当中 ， 这 不 仅 能 为 你 市 来 极 大 的 目 由 
度 ， 而 且 还 能 提高 你 的 工作 效率 。 来 看 下 面 这 两 
个 DataFrame， 它 们 分 别 含 有 股票 价格 和 成 交 量 的 


时 间 序列 后 1， 


In [16]: 
Out[16]: 


2011- 
2011- 
2011- 
2011- 
2011- 
2011- 
2011- 


In [17]: 
Out[17] : 


2011- 
2011- 
2011- 
2011- 
2011- 


假设 你 想 要 用 所 有 有 效 数 据 计算 一 个 成 交 量 
加 权 平 均 价 格 (为 了 简单 起 见 ， 假 设 成 交 量 数 据 


09- 
09- 
09- 
09- 
09- 
09- 
09- 


09- 
09- 
09- 
09- 
09- 


prices 


06 
07 
08 
09 
12 
13 
14 


AAPL 
379.74 
383.93 
384.14 
377.48 
379.94 
384.62 
389.30 


volume 


06 
07 
08 
09 
12 


AAPL 
18173500 
12492000 
14839800 
20171900 
16697300 


是 价格 数据 的 子 集 ) 


的 表达 式 即 可 : 


In [18]: prices * volume 


Out[18]: 


2011- 
2011- 
2011- 
2011- 
2011- 
2011- 
2011- 


In [19]: vwap = (prices * volume).sum() / volume.sum() 


09- 
09- 
09- 
09- 
09- 
09- 
09- 


06 
07 
08 
09 
12 
13 
14 


AAPL 
6901204890 
4796053560 
5700560772 
7614488812 
6343972162 

NaN 
NaN 


64. 
65. 
64. 
63. 
63. 
63. 
63. 


JNJ 
64 
43 
95 
64 
59 
61 
73 


JNJ 
15848300 
10759700 
15551500 
17008200 
13448200 


。 由 于 pandas 会 在 算术 运算 
过 程 中 目 动 将 数据 对 齐 ， 并 在 sum 这 样 的 函数 中 
排除 缺失 数据 ， 所 以 我 们 


1024434 
704007 
1010069 
1082401 
855171 


1165. 
1198. 
1185. 
1154. 
1162. 
1172. 
1188. 


SPX 
24 
62 
90 
23 
27 
87 
68 


XOM 
71.15 
73.65 
72.82 
71.01 
71.84 
71.65 
72.64 


XOM 
25416300 
23108400 
22434800 
27969100 
26205800 


只 需 编写 


JNJ 
112 
171 
925 
848 
038 
NaN 
NaN 


SPX 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


下 面 这 条 何 涪 


XOM 
1808369745 
1701933660 
1633702136 
1986085791 
1882624672 

NaN 

NaN 


In [20]: vwap In [21]: vwap.dropnal() 


Out[20]: Out [21]: 

AAPL 380 .655181 AAPL 380 .655181 
JNJ 64.394769 JNJ 64.394769 
SPX NaN XOM 72.024288 
XOM 72.024288 


由 于 SPX 在 volume 中 找 不 到 ， 上 所 以 你 随时 可 
以 显 陈 地 将 其 丢 弄 。 如 有 条 硕 望 手工 进行 对 齐 ， 可 
以 使 用 DataFrame 的 align 方 法 ， 它 返回 的 是 一 个 元 
组 ， 含 有 两 个 对 象 的 重 索 引 版 本 : 


In [22]: prices.align(volume, join="'inner') 
Out[22]: 


( 
2011-09-06 379.74 64.64 71.15 
2011-09-07 383.93 65.43 73.65 
2011-09-08 384.14 64.95 72.82 
2011-09-09 377.48 63.64 71.01 
2011-09-12 379.94 63.59 71.84, 

AAPL JNJ XOM 
2011-09-06 18173500 15848300 25416300 
2011-09-07 12492000 10759700 23108400 
2011-09-08 14839800 15551500 22434800 
2011-09-09 20171900 17008200 27969100 
2011-09-12 16697300 13448200 26205800) 


男 一 个 不 可 或 缺 的 功能 是 ， 通 过 一 组 索引 可 
能 不 同 的 Series 构 建 一 个 DataFrame 。 


In [23]: si = Series(range(3), index=['a', 'b', 'c']) 
In [24]: S2 = Series(range(4), index=['d', 'b', 'c', 'e']) 
In [25]: S3 = Series(range(3), index=['f', 'a', 'c']) 


In [26]: DataFrame({'one': si, 'two': s2, 'three': s3}) 
Out[26]: 


one three two 


a © 1 NaN 
b 1 NaN 1 
C 2 2 2 
d NaN NaN 0 
e NaN NaN 3 
f NaN © NaN 


女 前 面 一 样 ， 这 里 也 可 以 显 式 定义 结 来 的 索 
引 (丢弃 其 余 的 数据 ) : 


In [27]: DataFrame({'one': si, 'two': s2, 'three': s3}, 
index=]list('face')) 


Out[27]: 

one three two 
f NaN © NaN 
a © 1 NaN 
C 2 2 
e NaN NaN 3 


频率 不 同 的 时 间 序 列 的 运算 


经 济 学 时 间 序 列 常常 有 关 按 年 、 季 、 月 、 日 
计算 的 或 其 他 更 特殊 的 频 座 。 有 些 完 全 束 是 不 规 
则 的 ， 比 如 说 ， 特 利 预测 调整 随时 都 可 能 会 砾 
生 。 频 率 转 换 和 重 对齐 的 两 大 主要 工具 是 
resample 和 reindex 方 法 。resample 用 于 将 数据 转换 
到 固定 频率 ， 而 reindex 则 用 于 使 数据 符合 一 个 新 
索引 。 它 们 都 支持 插值 《如 前 向 填充 ) 逻辑 。 


来 看 一 个 何 单 的 周 型 时 间 序 列 : 


in [36] 


tsi = Series(np.random.randn(3), 


index=pd.date_range('2012-6-13' 


periods= 3, freq='W-wED')) 


In [29]: tsi 

Out[29]: 

2012-06-13 -1.124801 
2012-06-20 0.469004 
2012-06-27 -0.117439 
Freq: W-WED 


如 朱 将 其 
频率 ， 则 那些 没有 数据 的 日 子 就 会 出 现 一 


A 


In [30]: 
Out[30]: 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
Freq: 


06- 
06- 
06- 
06- 
06- 
06- 
06 - 
06 - 
06 - 
06 - 
06 - 


B 


重 采样 到 工作 日 《星期 一 到 星期 


tsi.resample('B') 


13 
14 
15 
18 
19 
20 
21 
22 
25 
26 
27 


当然 ， 
面 的 值 填充 这 些 空 日 。 处 理 较 低频 率 的 数据 时 当 
肖 这 么 干 ， 因 为 最 终结 来 中 各 时 间 扣 部 有 一 个 最 
新 的 有 效 值 : 


In [31]: 
Out[31]: 


-1.124801 
NaN 
NaN 
NaN 
NaN 
© .469004 
NaN 
NaN 
NaN 
NaN 
-0.117439 


只 需 将 fill_method 设 置 为 'ffil1' 即 可 用 前 


tsi.resample('B', fill method="'ffill') 


2012-06-13 


-1.124801 


2012-06-14 -1.124801 
2012-06-15 -1.124801 
2012-06-18 -1.124801 
2012-06-19 -1.124801 
2012-06-20 0.469004 
2012-06-21 0.469004 
2012-06-22 0.469004 
2012-06-25 0.469004 
2012-06-26 0.469004 
2012-06-27 -0.117439 
Freq: B 


_ 在 实际 工作 当中 ， 将 较 低 频率 的 数据 升 采 样 
色 较 局 的 规整 频率 是 一 种 不知 的 解决 方案 ， 但 是 
对 于 更 一 般 化 的 不 规整 时 间 序 列 可 能 葡 不 太 合 运 
了 。 看 看 下 面 这 个 不 规整 样本 的 时 间 序列 (各 时 
间 点 更 一 般 化 ) : 

In [32]: dates = pd.DatetimeIndex(['2012-6-12', '2012-6-17 ， 

"2012-6-18 '， 

Me '2012-6-21', '2012-6-22', 
'2012-6-29']) 
In [33]: ts2 = Series(np.random.randn(6), index=dates) 


In [34]: ts2 


Out[34]: 

2012-06-12 -0.449429 
2012-06-17 0.459648 
2012-06-18 -0.172531 
2012-06-21 0.835938 
2012-06-22 -0.594779 
2012-06-29 0.027197 


如 果 要 将 ks1 中 "最 当前 ”的 值 ( 即 前 向 填充 ) 
加 到 ts2 上 。 一 个 办 法 是 将 两 者 重 采 样 为 规整 频率 


后 再 相 加 ， 但 是 如 果 想 维持 ts2 中 的 日 期 索引 ， 则 
reindex 会 是 一 种 更 好 的 解决 方案 : 


In [35]: tsi.reindex(ts2.index, method='ffill') 
Out[35]: 

2012-06-12 NaN 

2012-06-17 -1.124801 

2012-06-18 -1.124801 

2012-06-21 0.469004 

2012-06-22 0.469004 

2012-06-29 -0.117439 


In [36]: ts2 + tsi.reindex(ts2.index, method="'ffill") 


Out[36]: 

2012-06-12 NaN 
2012-06-17 -0.665153 
2012-06-18 -1.297332 
2012-06-21 1.304942 
2012-06-22 -0.125775 
2012-06-29 -0.090242 


使 用 Period 


Period (表示 时 间 区 间 ) 提供 了 男 一 种 处 理 
不 同 频 率 时 间 序 列 的 办 法 ， 尤 其 是 那些 有 大 特殊 
规 苑 了 鸭 以 年 或 季度 为 频率 的 金融 或 经 济 序列 。 比 
如 说 ， 一 个 公司 可 能 会 发 布 其 以 6 月 结尾 的 财 年 的 
每 季度 僵 利 报告 ， 即 频率 为 Q-JUN。 来 看 两 个 有 
天 GDP 和 通货 脱 胀 的 宏观 经 济 时 间 序 列 : 
In [37]: gdp = Series([1.78, 1.94, 2.08, 2.01, 2.15, 2.31, | 
2.46]， 


RR Index=pd.period_range( '1984Q2 ' ， 
periods=7, freq='Q-SEP')) 


In [38]: infl = Series([0.025, 0.045, 0.037, 0.04], 
a index=pd.period_range('1982', 
periods=4, freq='A-DEC' ) ) 


In [39]: gdp In [40]: infl 
Out[39]: Out[40]: 
1984Q2 1.78 1982 0.025 
1984Q3 1.94 1983 0.045 
1984Q4 2.08 1984 0.037 
1985Q1 2.01 1985 0.040 
1985Q2 2 人 .15 Freq: A-DEC 
1985Q3 2.31 

1985Q4 2.46 

Freq: Q-SEP 


跟 Timestamp 的 时 间 序 列 不 同 ， 由 Period 索 引 
的 两 个 不 同 频 率 的 时 间 序 列 之 间 的 运算 必须 进行 
显 式 转换 。 在 本 例 中 ， 假 设 已 知 infl 值 是 在 每 年 年 
林 观 测 的 ， 于 是 我 们 就 可 以 将 其 转换 到 Q-SEP 以 
得 到 该 频率 下 的 正确 时 期 : 


In [41]: infl q = infl.asfreq('Q-SEP', how='end') 


In [42]: infl _q 
Out[42]: 

1983Q1 0.025 
1984Q1 0.045 
1985Q1 0.037 
1986Q1 0.040 
Freq: Q-SEP 


然后 这 个 时 间 序 列 束 可 以 被 重 索引 了 (使 用 
前 问 填充 以 匹配 gdp) 


In [43]: infl_q.reindex(gdp.index, method="'ffill'") 
Out[43]: 

1984Q2 0.045 

1984Q3 0.045 


1984Q 
1985Q 
1985Q 
1985Q 
1985Q 


4 
工 
2 
3 
4 


045 
037 
037 
037 
037 


时 间 和 “最 当 剖 ”数据 远 取 


假设 你 有 一 个 很 长 的 表 中 市 场 数据 时 间 序 
列 ， 现在 希望 抽取 其 中 每 天 特定 时 间 的 价格 数 
据 。 如 果 数 据 不 规整 (观测 值 没 有 精确 地 落 在 其 
望 的 时 间 点 上 ) ， 
如 末 不 够 小 心 仔细 有 的话， 很 容易 


规整 化 。 看 看 下 面 这 个 例 于 : 


# 生成 一 


In [4 


4]: 


15:59°', 


# 生成 5 天 的 时 间 点 (9:30~15:59 之 间 的 值 ) 


In [4 


In [4 


5]: 


6]: 


个 交易 日 内 的 日 期 范围 和 时 间 序 列 “ 
rng = pd.date_range('2012-06-01 09:30 '， 
freq="'T"') 


注 2 


该 怎么 办 ? 在 实际 工作 当中 ， 


导致 错误 的 数据 


'2012-06-01 


rng = rng.append([rng + pd.offsets.BDay(i) for i in 
range(1, 4)]1) 


index=rng) 


In [4 
Out [4 
2012 - 
2012 - 
2012 - 
2012 - 
2012 - 
2012 - 
2012 - 


7]: 


t 


7]: 


06- 
06- 
06- 
06- 


06- 
06- 
06- 


01 
01 
01 
01 


06 
06 
06 


ts = 


S 


09 :30 : 
09 :31: 
09 :32 : 
09:33:} 


15:56 : 
15:57: 
15:58 : 


00 
00 
00 
00 


00 
00 
00 


Series(np.arange(len(rng), 


dtype=float), 


2012-06-06 15:59:00 1559 
Length: 1560 


利用 Python 的 datetime.time 对 象 进行 索引 即 可 
抽取 出 这 些 时 间 点 上 的 值 : 


In [48]: from datetime import time 


In [49]: ts[time(10, 0)] 


Out[49]: 

2012-06-01 10:00:00 30 
2012-06-04 10:00:00 420 
2012-06-05 10:00:00 810 


2012-06-06 10:00:00 1200 


实际 上 ， 该 操作 用 到 了 实例 方法 at_time (各 
时 间 序 列 以 及 类 似 的 DataFrame 对 象 都 有 ) : 


In [50]: ts,at time(time(10，0)) 


Out[50]: 

2012-06-01 10:00:00 30 
2012-06-04 10:00:00 420 
2012-06-05 10:00:00 810 


2012-06-06 10:00:00 1200 


不 有 一 个 between time 方 法， 它 用 于 选取 两 
个 Time 对 和 象 之 则 的 值 : 


In [51]: ts.between time(time(10, 0), time(10, 1)) 


Out[51]: 

2012-06-01 10:00:00 30 
2012-06-01 10:01:00 31 
2012-06-04 10:00:00 420 
2012-06-04 10:01:00 421 
2012-06-05 10:00:00 810 


2012-06-05 10:01:00 811 


2012-06-06 10:00:00 1200 
2012-06-06 10:01:00 1201 


正如 之 前 提 到 的 那样 ， 可 能 刚好 就 没有 任何 
数据 落 在 某 个 具体 的 时 间 上 《比如 上 午 10 点 ) 。 
这 时 ， 你 可 能 会 希望 得 到 上 午 10 点 之 前 最 后 出 现 
的 那个 值 : 


In [53]: indexer = np.sort(np.random.permutation(len(ts)) 
[700:]) 


In [54]: irr_ts = ts.copy() 
In [55]: irr_ts[indexer] = np.nan 


In [56]: irr_ts['2012-06-01 09:50':;'2012-06-01 10:00 ' ] 
Out[56]: 

2012-06-01 09:50:00 NaN 
2012-06-01 09:51:00 NaN 
2012-06-01 09:52:00 22 
2012-06-01 09:53:00 NaN 
2012-06-01 09:54:00 24 
2012-06-01 09:55:00 NaN 
2012-06-01 09:56:00 26 
2012-06-01 09:57:00 27 
2012-06-01 09:58:00 28 
2012-06-01 09:59:00 29 
2012-06-01 10:00:00 NaN 


如 果 将 一 组 Timestamp 传 入 asof 方 法 ， 束 能 得 
到 这 些 时 间 点 处 (或 其 之 前 最 近 ) 的 有 效 值 ( 非 
NA) 。 人 例如， 我们 构造 一 个 日 期 苑 围 〈 每 天 上 午 
10 点 ) ， 然 后 将 其 传 入 asof: 


In [57]: selection = pd.date_range('2012-06-01 10:00 '， 
periods=4, freq='B') 


In [58]: irr_ts.asof(selection) 


Out[58]: 
2012-06-01 10:00:00 29 
2012-06-04 10:00:00 419 
2012-06-05 10:00:00 810 
2012-06-06 10:00:00 1198 
Freq: B 


扩 按 多 个 数据 源 


在 第 7 草 中 ， 我 介 0 些 合并 两 个 相关 数据 
集 的 办 法 。 在 金 融 或 经 济 领域 中 ， 还 有 另外 几 个 
经 第 出 现 的 情况 : 


:在 一 个 特定 的 时 间 点 上 ， 从 一 个 数据 源 切 换 
到 男 一 个 数据 产 。 


用 另 一 个 时 间 序 列 对 当前 时 间 序 列 中 的 缺失 
个 作证 


-将 数据 中 的 符号 〈 国 家、 资产 代码 等 ) 蔡 换 
为 实际 数据 。 


对 于 第 一 种 情况 ， 在 特 是 时 刻 从 一 个 时 间 序 
列 切 换 色 态 一 个 ， 有 其 实 束 是 用 pandas.concat 符 两 
个 TimeSeries 或 DataFrame 对 象 合 并 到 一 起 : 

TS ata = DataFranelnp. onest (6 3), dtypesTToat), 


columns=['a' 
index=pd. date a 1 


periods=6)) 


In [60]: data2 = DataFrame(np.ones((6, 3), dtype=float) * 2, 
es columns=['a', 'b', 'c'], 
i index=pd.date_range('6/13/2012", 
periods=6)) 


In [61]: spliced = pd.concat([data1.ix[:'2012-06-14'], 
data2.ix['2012-066-15':]]) 


In [62]: spliced 
Out[62]: 


2012-06-12 
2012-06-13 
2012-06-14 
2012-06-15 
2012-06-16 
2012-06-17 
2012-06-18 


册 看 另 一 个 和 侧 单 的 例 和 于 ， 假 设 datal 缺 失 了 
data2 中 存在 的 某 个 时 间 序 列 : 


In [113]: data2 = DataFrame(np.ones((6, 4), dtype=float) * 
2, 


记 DDNPPPP 忆 上 中 
DODDDDoDPAPAPDTDSO 
记 记 PP 局 


columns=['a', 'b', 'c', 'd'], 
ts index=pd.date_range('6/13/2012", 
periods=6)) 
In [64]: spliced = pd.concat([datai1.ix[:'2012-06-14'], 
data2.ix['2012-066-15':]]) 


In [65]: spliced 


Out[65]: 

a b c d 
2012-06-12 1 1 1 NaN 
2012-06-13 1 1 1 NaN 
2012-06-14 1 1 1 NaN 
2012-06-15 2 2 2 2 
2012-06-16 2 2 2 2 


2012-06-17 2 2 2 
2012-06-18 2 2 2 


combine_first 可 以 引入 合并 点 之 前 的 数据 ， 


2 
2 


样 也 束 扩 展 了 'd' 项 的 历史 : 


In [66]: 


In [67]: 
Out[67]: 


2012- 
2012- 
2012- 
2012- 
2012- 
2012- 
2012- 


06- 
06 - 
06 - 
06 - 
06 - 
06 - 
06 - 


Kt 


spliced_filled = spliced.combine_first(data2) 


spliced_filled 


12 
13 
14 
15 
16 
17 
18 


DDDDODDODPPAPY 


DODDODDPODPPAPDTSO 


DDDODDODPPAPO 


9 


ENENENENENE A 


由 于 data2 没 有 关于 2012-06-12 的 数据 ， 所 以 
也 束 没 有 值 被 填充 到 那 一 天 。 


DataFrame 也 有 一 个 类 似 的 方法 update， 它 可 


以 实现 就 地 更 新 。 如 果 
入 overwrite=False 才 行 : 


In [68]: 


In [69]: 
Out[69]: 


2012- 
2012- 
2012- 
2012- 
2012- 


06- 
06- 
06- 
06 - 
06 - 


口 相 


人 AN 


填充 至 洞 ， 则 必须 传 


spliced.update(data2, overwrite=False) 


spliced 


12 
13 
14 
15 
16 


DNDPPPD 


DDDPAPPPDO 


DDDPPPO 


NENENENE 


2012-06-17 2 2 2 2 
2012-06-18 2 2 2 2 


上 面 所 讲 的 这 些 技术 部 可 实现 将 数据 中 的 符 
号 蕉 换 为 实际 数据 ， 但 有 时 利用 DataFrameb 的 索引 | 
机 制 直 接 对 列 进行 设置 会 更 和 傈 单一 些 : 
In [70]: cp_spliced = spliced.copy() 
In [71]: cp_splicedf[f'a', 'c']] = dataiff'a', 'c']] 


In [72]: cp_spliced 
Out[72]: 


a 
2012-06-12 1 
2012-06-13 1 
2012-06-14 1 
2012-06-15 1 
2012-06-16 1 
2012-06-17 1 
2012-06-18 NaN 


收益 指数 和 票 计 收 益 

在 金融 领域 中 ， 收 益 (return) 通常 指 的 是 某 
和 质 产 价格 的 百分比 变化 。 我 们 来 看 看 2011 年 到 
2012 年 间 苹果 公司 的 股票 价格 数据 二 于 3 


In [73]: import pandas.io.data as web 


DDDDDDPoPAPPTSO 


乙 
oy 
PPNDPP 二 上 


ZAPPAPPO 


In [74]: price = web.get_data yahoo('AAPL', '2011-01-01'") 
['Adj Close'] 


In [75]: price[-5:] 
Out[75]: 
Date 


2012-07-23 603 .83 
2012-07-24 600.92 
2012-07-25 574.97 
2012-07-26 574.88 
2012-07-27 585 ,16 
Name: Adj Close 


对 于 苹果 公司 的 股票 (没有 股息 竺 E4) ， 计 
算 两 个 时 间 点 之 间 的 素 计 百分比 回报 只 需 计 算 价 
格 的 百分比 变化 即 可 : 


In [76]: price['2011-10-03'] / price['2011-3-01'] - 1 
Out[76]: 0.072399874037388123 


对 于 其 他 那些 派发 股 忆 的 股票 ， 要 计算 你 在 
某 只 股票 上 赚 了 多 少 钱 正比 较 复 洒 了 。 不 过 ， 这 
里 所 使 用 的 已 调整 收盘 价 已 经 对 拆 分 和 股 恩 做 出 
了 调整 。 不 管 什 么 样 的 情况 ， 通 党 都 会 完 算 出 一 
个 收益 指数 ， 它 是 一 个 表示 单位 投资 (比如 1 美 
元 ) 收益 的 时 间 序 列 。 从 收益 指数 中 可 以 得 出 许 
多 假设 。 例 如 ， 人 们 可 以 决定 是 否 进行 利 铀 再 投 
贯 。 对 于 平 条 公司 的 情 读 ， 我 们 可 以 利用 cumprod 
计算 出 一 个 商 单 的 收 番 指 效 : 


In [77]: returns = price.pct_change( ) 


In [78]: ret_ index = (1 + returns).cumprod() 


In [79]: ret_index[0] = 1 # 将 第 一 个 值 设 置 为 1 


In [80]: ret_index 
Out[80]: 

Date 

2011-01-03 1.000000 


2011-01-04 1.005219 
2011-01-05 1.013442 
2011-01-06 1.012623 
2012-07-24 1.823346 
2012-07-25 1.744607 
2012-07-26 1.744334 
2012-07-27 1.775526 
Length: 396 


得 到 收 和 益 指 数 之 后 ， 计 算 指 定时 期 内 的 素 计 
收 巷 融 很 商 单 了 : 
In [81]: m_returns = ret_index,.resampJe('BM '， 
how="'last').pct_change() 


In [82]: m_returns['2012'] 


Out[82]: 

Date 

2012-01-31 © .127111 
2012-02-29 0.188311 
2012-03-30 0.105284 
2012-04-30 -0.025969 
2012-05-31 -0.010702 
2012-06-29 0.010853 
2012-07-31 0.001986 
Freq: BM 


当然 了 ， 就 这 个 简单 的 例子 而 言 (没有 股息 
也 没有 其 他 需要 考虑 的 调整 ) ， 上 面 的 结果 也 能 
通过 重 采样 聚合 (这 里 聚合 为 时 期 ) 从 日 百分比 
变化 中 计算 得 出 ; 


In [83]: m_rets = (1 + returns).resample('M', how="'prod', 
kind='period') - 1 


In [84]: m_rets['2012'] 
Out[84]: 


Date 


2012-01 0.127111 
2012-02 0.188311 
2012-03 0.105284 
2012-04 -0.025969 
2012-05 -0.010702 
2012-06 0.010853 
2012-07 0.001986 
Freq: M 


如 末 知 道 了 股 恩 的 派发 日 和 文 付 率 ， 束 可 以 
将 它们 计 入 到 每 日 总 收益 中 ， 如 下 所 示 : 


returns[dividend dates] += dividend_pcts 

译注 1: 此 处 代码 不 完整 ， 需 要 加 载 ch11 的 两 个 
然后 稍 作 处 理 即 可 得 到 这 里 所 需 的 素 
译注 2， 这 里 生成 的 只 是 索引 ， 没 有 时 间 序 列 。 
译注 3: 直接 使 用 这 段 代码 获取 的 数据 会 多 很 多 ， 
因为 没有 截止 日 期 建议 使 用 
price=web.get_data_yahoo(AAPL' ,2011-01- 
01','2012-07-270['Adj Close]。 此 外 ， 由 于 这 里 获 
Close， 所 以 数据 本 号 也 会 有 一 些 不 


译注 4， 现 在 已 经 派 过 股息 了 。 


分 组 变换 和 分 析 


在 第 9 章 中 ， 我 们 学 习 了 分 组 统计 计算 的 基础 
知识 ， 还 学 习 了 如 何 对 数据 集 的 分 组 应 用 自 定义 
的 变换 画 数 。 


下 面 以 一 组 假想 的 股票 投资 组 合 为 例 。 首 先 
我 随机 生成 1000 个 股票 代码 : 


import random; random.seed(0) 
import string 


N = 1000 
def rands(n): 

choices = string.ascii uppercase 

return ''.join([random.choice(choices) for _ in 
xrange(n)]) 


tickers = np.array([rands(5) for _ in xrange(N)]) 


然后 创建 一 个 舍 有 3 列 的 DataFrame 来 承载 这 


些 假 想 数 据 ， 不 过 只 这 择 部 分 股票 组 成 该 投 信 组 
合 : 
M = 500 


df = DataFrame({'Momentum' : np.random.randn(M) / 200 + 0.03, 
'Value' : np.random.randn(M) / 200 + 0.08, 


'ShortIinterest' : np.random.randn(M) / 200 - 
0.02}, 


index=tickers[:M]) 


接 下 来 ， 我 们 为 这 些 股票 随机 创建 一 个 行业 
分 类 。 为 了 倘 音 起 见 ， 我 只 选用 了 两 个 行业 ， 并 


将 映 冉 天 系 保存 在 Series 中 : 


ind_names = np.array(['FINANCIAL', 'TECH']) 

sampler = np.random.randint(©0, len(ind_names), N) 

industries = Series(ind names[sampler], index=tickers, 
name="'industry') 


现在 ， 我 们 就 可 以 根据 行业 分 类 进行 分 组 并 
执行 分 组 察 合 和 变换 了 了: 
In [90]: by_industry = df.groupby(industries) 


In [91]: by_industry.mean() 


Out[91] : 

Momentum ShortInterest Value 
Industry 
FINANCIAL 0.029485 -0.020739 0.079929 
TECH 0.030407 -0.019609 0.080113 


In [92]: by_industry.describe() 


Out[92] : 
Momentum ShortInterest 

Value 
Industry 
FINANCIAL count 246.000000246 .000000 246.000000 

mean 0.029485 -0 .020739 
0.079929 

std 0.004802 0.004986 
0.004548 

min 0.017210 -0 .036997 
0.067025 

25% 0.026263 -0 .024138 
0.076638 

5O% 0.029261 -0 .020833 
0.079804 

75% 0.032806 -0.017345 
0.082718 

max 0.045884 -0 .006322 
0.093334 
TECH count 254.000000 254.000000 
254.000000 


mean 0.030407 -0.019609 


0.080113 

std 0.005303 0.005074 
0.004886 

min 0.016778 -0.032682 
0.065253 

25% 0.026456 -0.022779 
0.076737 

50% 0.030650 -0.019829 
0.080296 

75% 0.033602 -0.016923 
0.083353 

max 0.049638 -0.003698 
0 


.093081 


要 对 这 些 按 行 业 分 组 的 投资 组 合 进行 各 种 变 
换 ， 我 们 可 以 编写 目 定 义 的 变换 函数 。 例 如 行业 
内 标准 化 处 理 ， 它 广泛 用 于 股票 质 产 投 竺 组 合 的 
构建 过 程 : 
# 行 亚 内 称 供 化 处 理 


def zscore(group): 
return (group - group.mean()) / group.std() 


df_stand = by_industry.apply(zscore) 


这 样 处 理 之 后 ， 各 行业 的 平均 值 为 0， 标 准 差 
为 1: 


In [94]: df_stand.groupby(industries).agg(['mean', 'std"']) 
Out[94]: 


Momentum ShortInterest Value 
mean std mean std mean 
std 
industry 
FINANCIAL 0 . 0 1 0 
1 
TECH -0 1 -0 1 -0 


1 


内 置 变换 函数 (如 rank) 的 用 法 会 更 简洁 一 


[Es 


# 们 ) PF 的 
In [95]: ind_rank = by_industry.rank(ascending=False) 


In [96]: ind_rank.groupby(industries).agg(['min', "max']) 
Out[96] : 


Momentum ShortInterest Value 
min max min max min max 
industry 
FINANCIAL 1 246 1 246 1 246 
TECH 1 254 1 254 1 254 


在 股票 投 质 组 合 的 定量 分 析 中 , “排名 和 标准 
化 ?" 征 一 种 很 音 见 的 变换 运算 组 合 。 通 过 将 rank 和 
0 束 像 下 

这 样 : 


# 人 1 相 标 众 
In [97]: De industry.apply(lambda x: zscore(x.rank())) 
Out[97]: 

<class 'pandas.core.frame.DataFrame'> 

Index: 500 entries, VTKGN to PTDQE 

Data columns: 


Momentum 500 non-null] values 
ShortInterest 500 non-nulL1 values 
Value 500 non-nulL1 values 


dtypes: float64(3) 


分 组 因 于 又 露 


因子 分 析 (factor analysis) 是 投资 组 合 定量 管 
理 中 的 一 种 技术 。 er Ud 
益 与 损失 ) 可 以 被 分 解 为 一 个 或 多 个 表示 投资 组 


合 权重 的 因子 (风险 因子 就 是 其 中 之 一 ) 。 例 
i {股票 的 价格 与 菜 个 基准 (比如 标准 普尔 
500 指 数 ) 的 协 动 性 被 称 作 其 贝塔 风险 系数 
(beta， 一 种 常见 的 风险 因子 ) 。 下 面 以 一 个 人 为 
构成 的 投资 组 合 为 例 进行 讲解 ， 它 由 三 个 随机 生 
2 通常 称 为 因子 载荷 )】 和 一 些 权 重 构 


from numpy.random import rand 
faci, fac2, fac3 = np.random.rand(3, 1000) 


ticker_subset = tickers.take(np.random.permutation(N)[:1000]) 


# 因子 加 权 和 以 及 噪声 
port = Series(0.7 * faci - 1.2 * fac2 + 0.3 * fac3 + 
rand(1000), 
index=ticker_subset) 
factors = DataFrame({'f1i': faci, 'f2': fac2, 'f3': fac3}, 
index=ticker_subset) 


各 因子 与 投 俊 组 合 之 则 的 矢量 相关 性 可 能 这 
明 不 了 什么 问题 : 


In [99]: factors.corrwith(port) 
Out[99] : 

f1 0.402377 

f2 -0.680980 

f3 0.168083 


计算 因 于 暴露 的 标准 方式 是 最 小 二 乘 回归 。 
使 用 pandas.ols (将 factors 作 为 解释 变量 ) 即 可 计 
算出 整个 投资 组 合 的 双 堪 : 


In [100]: pd.ols(y=port, x=factors).beta 


out[100] : 

f1 0.761789 
下 2 -1.208760 
f3 0.289865 


intercept 0.484477 


不 难看 出 ， 由 于 没有 给 投资 组 合 添 加 过 多 的 
随机 噪声 ， 所 以 原始 的 因子 权重 基本 上 可 算是 恢 
复出 来 了 。 还 可 以 通过 groupby 计 算 各 行业 的 又 露 
量 。 为 了 达到 这 个 目的 ， 我 移 编 写 了 一 个 函数 ， 
如 下 所 示 : 


def beta exposure(chunk, factors=None): 
return pd.ols(y=chunk, x=factors).beta 


然后 根据 行业 进行 分 组 ， 并 应 用 该 妙 数 ， 传 
入 因子 载 何 的 DataFrame: 


In [102]: by_ind = port.groupby(industries) 


In [103]: exposures = by_ind.apply(beta exposure, 
factors=factors ) 


In [104]: exposures.unstack() 


Out[104] : 

f1 f2 f3 intercept 
industry 
FINANCIAL 0.790329 -1.182970 0.275624 0.455569 
TECH 0.740857 -1.232882 0.303811 0.508188 


十 分 位 和 四 分 位 分 析 


基于 样本 分 位 数 的 分 析 是 金融 分 析 师 们 的 田 
一 个 重要 工具 。 例 如 ， 股 票 投资 组 合 的 性 能 可 以 
根据 各 股 的 市 盘 率 被 划分 入 四 分 位 (四 个 大 小 相 
等 的 块 ) 。 通 过 pandas.qcut 和 groupby 可 以 非常 轻 
松 地 实现 分 位 数 分 析 。 


在 下 面 这 个 例 于 中 ， 我 们 利用 跟随 蛇 略 或 动 
量 交 易 策 上 略 通 过 SPY 交 易 所 交易 基金 买卖 标准 辣 
尔 500 指 数 。 你 可 以 从 Yahoo!Finance 下 载 价 格 历 
中: 


In [105]: import pandas.io.data as web 
In [106]: data = web.get data yahoo('SPY', '2006-01-01')™5 


In [107]: data 

Out[107]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 1655 entries, 2006-01-03 00:00:00 to 2012-07- 
27 00:00:00 

Data columns: 


Open 1655 non-null values 
High 1655 non-null values 
Low 1655 non-null values 
Close 1655 non-null values 


Volume 1655 non-null values 
Adj Close 1655 non-null values 
dtypes: float64(5), int64(1) 


接 下 来 计算 日 收 答 率 ， 并 编写 一 个 用 于 将 收 
2 (通过 滞后 移动 形成 ) 的 画 


米 


px = data[ 'Adj Close '] 
returns = px.pct_change() 


def to_index(rets): 
index = (1 + rets).cumprod() 
first_loc = max(index.notnull().argmax() - 1, 0) 
index.values[first_ loc] = 1 
return index 


def trend_signal(rets, lookback, 1ag): 
signal = pd.rolling_sum(rets, lookback, 


min_periods=lookback - 5) 
return signal.shift(1lag) 


通过 该 函数 ， 我 们 可 以 ( 单 纯 地 ) 
种 根据 每 周 五 动量 信 号 进行 交易 的 交易 策 
图 o 


In [109]: signal = trend_ signal(returns, 100, 3) 


In [110]: trade friday = signal.resample('W- 
FRI').resample('B', fill method='ffill') 


In [111]: trade_rets = trade_ friday.shift(1) * returns 


然后 将 该 策略 的 收益 率 转 换 为 一 个 收益 指 
数 ， 并 绘制 一 张 图 表 (如 图 11-1 所 示 ) 


In [112]: to_index(trade_rets).plot() 


1 1 上 1 1 
2007 2008 2009 2010 2011 2012 
te 


图 11-1: SPY 动 量 策略 收益 指数 


假如 你 布 望 将 该 案 略 的 性 能 按 不 同 关 小 的 区 
易 期 波幅 进行 划分 。 年 度 标 准 关 是 计算 波幅 的 一 
种 徐 单 办 法 ， 我 们 可 以 通过 计算 夏普 比率 来 观察 
不 同 波动 机 制 下 的 风险 收益 率 : 
vol = pd.rolling_std(returns, 250, min_periods=200) * 
np.sqrt(250) 


def sharpe(rets, ann=250): 
return rets.mean() / rets.std() * np.sqrt(ann) 


现在 ， 利 用 gcut 将 vol 划 分 为 四 等 份 ， 并 用 


sharpej 进 行 聚合 : 


In [114]: trade rets.groupby(pd.qcut(vol, 4)).agg(sharpe) 


Out [114]: 
[0.0955, 0.16] 0.490051 
(0.16, 0.188] 9.482788 


(0.188, 0.231] -0.,731199 
(0.231, 0.457] 0.570500 


这 个 结果 说 明 ， 该 党 略 在 波幅 最 高 时 性 能 最 
人 

译注 5: 跟前 面 说 的 一 样 ， 这 里 最 好 还 十 加 上 截止 
日 期 ， 否 则 数据 会 比 书 上 介绍 的 多 。 


更 多 示例 应 用 
本 节 介绍 一 些 其 他 的 例子 。 


在 本 小 廊 中 ， 我 将 介绍 一 种 向 化 的 截面 动量 
投 贫 组 合 ， 并 各 诉 你 如 何 得 到 模型 参数 化 网 格 。 
自 先 ， 我 将 金融 和 拉 术 领域 中 的 几 只 上 股票 做 成 一 
个 投资 组 合 ， 并 加 载 它 们 的 历史 价格 数据 : 
names = ['AAPL'， ‘6006', 'MSFT', ‘'DELL', 'GS', 'MS', 'BAC', | 
0 start, end): 
return web.get data yahoo(stock, start, end)['Ad]j Close'] 


px = DataFrame({n: get_px(n, '1/1/2009', '6/1/2012') for n in 
names}) 


我 们 可 以 轻松 绘制 每 只 股票 的 累计 收益 (如 
图 11-2 所 示 ) : 
In [117]: px = px.asfreq('B').fillna(method="'pad') 
In [118]: rets = px.pct_change() 


In [119]: ((1 + rets).cumprod() - 1).plot() 


对 于 投 闹 组 合 的 构建 ， 我 们 要 计算 符 定 回顾 
期 的 动量 ， 然 后 按 降 序 排列 并 标准 化 : 


def calc mom(price, lookback, lag): 
mom_ret = price.shift(1ag).pct_change(lookback) 
ranks = mom_ret.rank(axis=1, ascending=False) 
demeaned = ranks - ranks.mean(axis=1) 
return demeaned / demeaned.std(axis=1) 


利用 这 个 变换 函数 ， 我 们 再 编写 一 个 对 桌 上 略 
进行 事后 检验 的 画 数 ， 通 过 指定 回顾 期 和 持 有 期 
(买卖 之 间 的 日 数 ) 计算 投资 组 合 整 体 的 夏普 比 


TOpA 
I 


蔷 


compound = lambda x : (1 + x).prod() - 1 
daily_sr = lambda x: x.mean() / x.std() 


def strat_sr(prices, lb, hold): 
# 计算 投资 组 合 权 重 
freq = '%dB' % hold 
port = calc mom(prices, lb, lag=1) 


daily_rets = prices.pct_change() 


# 计算 投资 组 合 收益 

port = port.shift(1).resample(freq, how="'first') 
returns = daily_rets.resample(freq, how=compound) 
port_rets = (port * returns).sum(axis=1) 


return daily_sr(port_rets) * np.sqrt(252 / hold) 


图 11-2， 每 只 股票 的 累计 收益 


通过 价格 数据 以 及 一 对 参数 组 合 调用 该 函数 
将 会 得 到 一 个 标量 值 : 


In [122]: strat_sr(px, 70, 30) 
Out[122]: 0.27421582756800583 


然后 对 参数 网 格 ( 即 多 对 参数 组 合 ) 应 用 
strat_sr 芳 数 ， 并 将 结果 保存 在 一 个 defaultdict 中 ， 
最 后 再 将 全 部 结果 放 进 一 个 DataFrame 中 : 


from collections import defaultdict 


lookbacks = range(20, 90, 5) 
holdings = range(20, 90, 5) 
dd = defaultdict(dict) 
for lb in lookbacks: 
for hold in holdings: 
dd[lb][hold] = strat_sr(px, lb, hold) 


ddf = DataFrame(dd ) 
ddf.index.name = 'Holding Period ' 
ddf .columns.name = 'Lookback Period' 


为 了 便于 观察 ， 我 们 可 以 将 该 结果 图 形 化 。 
下 面 这 个 函数 会 利用 matplotlib 生 成 一 张 带 有 装饰 
物 二 二 6 的 热 图 (heatmap) 


Import matplotlib.pyplot as pilit 


def heatmap(df, cmap=plt.cm.gray_r): 
fig = plt.figure() 
= fig.add_subplot(111) 
axim = ax.imshow(df.values, cmap=cmap, 
interpolation='nearest') 
ax.set_xlabel(df.columns.name) 
ax.set_xticks(np.arange(len(df.columns))) 
ax.set_ xticklabels(1list(df.columns)) 
ax.set_ylabel(df.index.name) 
ax.set_yticks(np.arange(len(df.index))) 
ax.set_yticklabels(1list(df.index)) 
plt.colorbar(axim) 


对 事后 检验 结 末 调用 该 芳 数 ， 束 会 得 到 图 11- 


In [125]: heatmap(ddf) 


20 25 30 35 40 45 50 55 60 65 70 75 80 85 
Lookback Period 


图 11-3: 动量 策略 各 种 回顾 期 和 持 有 期 的 夏普 比率 
热 图 ( 越 高 越 好 ) 


期 货 是 一 种 无 所 不 在 的 衍生 品 合约 。 它 是 一 
种 在 指定 日 期 交 收 指定 资产 (比如 石油 、 黄 金 或 
FTSE100 指 数 的 股份 ) 的 约定 。 在 实践 中 ， 由 于 
期 货 合约 具有 限时 性 ， 对 (股票 、 货 币 、 商 品 、 
债券 以 及 其 他 资产 类 ) 期 货 合约 的 建 模 和 交易 是 
很 复杂 的 。 例 如 ， 对 于 某 种 期 货 (比如 银 或 铜 期 
货 ) ， 在 给 定时 间 点 ， 可 能 有 多 个 到 期 时 间 不 同 
的 合约 被 交易 。 一 般 来 说 ， 下 一 个 期 满 的 期 货 合 
约 ( 即 近期 合约 ) 将 是 最 具 流 动 性 的 (成 交 量 最 
高 和 买卖 差价 最 低 ) 。 


通过 一 个 表示 贸 亏 (始终 持 有 近期 合约 ) 的 
连续 的 收益 指数 即 可 轻松 实现 建 模 和 预测 。 从 一 
份 到 期 合约 过 渡 到 下 一 期 《或 更 远 的 ) 合约 称 为 
转 仓 。 通 过 单个 期 贷 合约 数据 构建 连续 序列 并 不 
简单， 而 且 一 般 都 需要 深入 了 解 市 场 以 及 交易 方 
面 的 知识 才 行 。 例 如 ， 你 该 何 时 以 及 如 何 快速 买 
出 到 期 合约 并 天 入 下 期 合约 ?本 太 我 所 手 壕 的 整 
征 这 样 的 一 个 过 程 。 


目 先 ， 我 用 SPY 交 易 所 交易 基金 的 部 分 价格 
作为 标准 普尔 500 指 数 的 代理 : 


In [127]: import pandas.io.data as web 


# 标准 普尔 500 指 数 的 近似 价格 
In [128]: px = web.get_data yahoo('SPY')['Adj Close '] * 10 


In [129] : px 


Out[129] : 

Date 

2011-08-01 1261.0 
2011-08-02 1228.8 
2011-08-03 1235.5 
2012-07-25 1339 .6 
2012-07-26 1361.7 
2012-07-27 1386.8 


Name: Adj Close, Length: 251 


现在 ， 稍 微 做 一 些 设 置 。 我 在 一 个 Series 中 放 
了 两 份 标准 普尔 500 指 数 期 货 合 约 及 其 到 期 日 期 : 


from datetime import datetime 
expiry = {'ESU2': datetime(2012, 9, 21), 


'ESZ2': datetime(2012, 12, 21)} 
expiry = Series(expiry).order() 


expiry 现 在 应 该 是 这 个 样子 的 : 


In [131]: expiry 


out[131] : 
ESU2 2012-09-21 00:00:00 
ESZ2 2012-12-21 00:00:00 


然后 ， 我 用 Yahoo!Finance 的 价格 以 及 一 个 随 
”0 步 和 一 些 噪 声 来 模拟 这 两 份 合 约 未 来 的 走 


np.random.seed(12347) 

N = 200 

walk = (np.random.randint(0, 200, size=N) - 100) * 0.25 
perturb = (np.random.randint(0, 20, size=N) - 10) * 0.25 
walk = walk.cumsum() 


rng = pd.date_range(px.index[0], periods=len(px) + N， 
freq='B') 

near = np.concatenate( [px.values, px.values[-1] + walk]) 
far = np.concatenate([px.values, px.values[-1] + walk + 
perturb]) 

prices = DataFrame({'ESU2': near, 'ESZ2': far}, index=rng) 


是 这 样 ，prices 束 有 了 天 于 这 两 个 合约 的 时 间 序 
| 


In [133]: prices.tall( ) 
Out[133] : 


2013-04-16 1416.05 1417.80 
2013-04-17 1402.30 1404.55 
2013-04-18 1410.30 1412.05 
2013-04-19 1426.80 1426.05 
2013-04-22 1406.80 1404.55 


将 多 个 时 间 友 列 合并 为 单个 连续 序列 的 一 个 
办 法 是 构造 一 个 加 权 窍 陡 。 活 动 合 约 的 权重 应 该 
设 为 1， 直 到 期 满 为 止 。 在 那个 时 候 ， 你 必须 决定 
一 个 转 仓 约 是 。 下 面 这 个 辑 数 可 以 计算 一 个 加 权 
(权重 根据 到 期 前 的 期 数 减少 而 线性 衰 
碱 ) : 
def a items, roll periods=5): 


# expiry : 由 “合约 代码 -> 到 期 日 期 "组 成 的 序列 
# items :; 一 组 合约 名 称 


dates = pd.date_range(start, expiry[-1], freq='B') 
weights = DataFrame(np.zeros((len(dates), len(items))), 
index=dates, columns=items) 


prev_date = weights.index[0] 
for i, (item, ex_date) in enumerate(expiry.iteritems()): 
if i < len(expiry) - 1: 
weights.ix[prev_date:ex_ date - pd.offsets.BDay(), 
Item] = 1 
roll _ rng = pd.date_range(end=ex_date - 
pd.offsets.BDay()， 
periods=roll periods + 
1, freq='B') 


decay_weights = np.linspace(0, 1, roll periods + 
1) 
weights.ix[roll_ rng, item] = 1 - decay_weights 
weights.ix[roll_rng, expiry.index[i + 1]] = 
decay_weights 
else: 
weights.ix[prev_date:, item] = 1 


prev_date = ex_date 
return weights 


快 到 ESU2 到 期 日 的 那 几 天 的 权重 如 下 所 示 : 


In [135]: weights = get_roll weights('6/1/2012', expiry, 
prices.columns) 


In [136]: weights.ix['2012-09-12':'2012-09-21'] 
out[136] : 

ESU2 E 
2012-09-12 1.0 
2012-09-13 1.0 
2012-09-14 0.8 
2012-09-17 0.6 
2012-09-18 0.4 

0.2 

0.0 

0.0 


N 
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2012-09-19 
2012-09-20 
2012-09-21 


最 后 ， 园 仓 期 货 收益 束 是 合约 收 盖 的 加 权 
由 


In [137]: rolled_returns = (prices.pct change() * 
weights).sum(1) 


移动 相关 系数 与 线性 回归 


动态 模型 在 金融 建 模 工 作 中 扮 滥 看 重要 的 角 
色 ， 因 为 它们 可 用 于 模拟 历史 时 期 中 的 交易 决 
寅 。 移 动 窗口 和 指数 加 权时 间 友 列 画 数 束 是 用 于 
处 理 动态 模型 的 工具 。 


相关 系数 是 观察 两 个 资产 时 间 序 列 的 变化 的 
协 动 性 的 一 种 手段 。pandas 的 rolling_corr 畏 数 可 以 
根据 两 个 收益 序列 计算 出 移动 窗口 相关 系数 。 首 
先 ， 我 从 YahoolFinance 加 载 一 些 价 格 序 列 ， 并 计 
算 每 日 收 葵 这 : 


PROOOOOO0 


aapl = 
msft = 
aapl_rets 
msft_rets 


web.get_data_yahoo('AAPL', '2000-01-01')['Adj Close '] 
web.get_data yahoo('MSFT', '2000-01-01')['Adj Close '] 


aapl.pct_change() 
msft.pct_change() 


然后 ， 我 计算 一 年 期 移动 相关 系数 并 绘制 
表 (如 图 11-4 所 示 ) 


In [140]: pd.rolling corr(aapl rets, msft_rets, 250).plot() 


产 之 间 的 相关 系数 存在 一 个 问题 ， 印 
它 不 能 捕获 波动 性 下 异 。 最 小 二 乘 回 归 近 供 了 力 
一 种 对 一 个 变量 与 一 个 或 多 个 其 他 预测 变量 之 同 
动态 关系 的 建 模 办 法 。 


In [142]: model = pd.ols(y=aapl_rets, x={'MSFT': msft_rets}, 
window=250) 


两 个 次 


In [143]: model.beta 


Out[143] : 


<class 'pandas .core.frame,DataFrame '> 
DatetimeIndex: 2913 entries, 2000-12-28 00:00:00 to 2012-07- 


27 00:00:00 


Data columns: 


MSFT 
intercept 


dtypes: float64(2) 


2913 
2913 


non-null values 
non-null values 


In [144]: model.beta['MSFT'].plot() 
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图 11-4: 平 来 与 微软 的 一 年 期 相关 系数 
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图 11-5: 苹果 对 微软 一 年 期 beta (OLS 回 归 系 数 ) 


pandas 的 ols 函 数 实 现 了 静态 和 动态 (扩展 或 
移动 窗口 ， 的 最 小 二 乘 回归 。 有 关 统 计 学 和 计量 


阐 学 的 复杂 模型 的 更 多 信息 ， 请 参考 statsmodels 
， | (http://statsmodels.sourceforge.net) 。 


译注 6: “装饰 物 " 就 是 图 例 、 标 题 之 类 的 "配角 * 元 
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第 12 草 ”NumpPy 高 级 应 用 
ndarray 对 和 象 的 内 部 机 理 


NumPy 的 ndarray 近 供 了 一 种 将 同 质 效 据 块 
(可 以 是 连续 或 跨越 "于! 的 ， 稍 后 将 详细 讲解 ) 
解释 为 多 维 数 组 对 和 象 的 方式 。 正 如 你 之 前 所 看 到 
的 那样 ， 数 据 类 型 (dtype) 决定 了 数据 的 解释 方 
式 ， 比 如 序 点 数 、 整 数 、 布 尔 值 等 。 


ndarray 如 此 强大 的 部 分 原因 是 所 有 数组 对 象 
都 是 数据 块 的 一 个 跨度 视图 (strided view) 。 你 
可 能 想 知 道 数 组 视图 arr[::2,::-1] 不 复制 任何 数据 的 
原因 是 什么 。 人 简单 地 说 ，ndarray 不 只 是 一 块 内 存 
和 一 个 dtype， 它 还 有 跨度 信息 ， 这 使 得 数组 能 以 
各 种 步 幅 (step size) 在 内 存 中 移动 2。 更 准确 
地 讲 ，ndarray 内 部 由 以 下 内 容 组 成 : 


一 个 指向 数组 (一 个 系统 内 存 块 ) 的 指针 。 
-数据 类 型 或 dtype 。 


一 个 表示 数组 形状 (shape) 的 元 组 ， 例 如 ， 
一 个 10x5 的 数组 ， 其 形状 为 (10,5) 。 


In [8]: np.ones((10, 5)).shape 
Out[8]: (10, 5) 


一 个 跨度 元 组 (stride) ， 其 中 的 整数 指 的 是 
为 了 前 进 到 当前 维度 下 一 个 元 素 需 要 “ 跨 过 ”的 字 
节 数 ， 例 如 ， 一 个 典型 的 〈C 顺 序 ， 稍 后 将 详细 讲 
解 ) 3x4x5 的 float64 (8 个 字 节 ) 数组 ， 其 跨度 为 
(160,40,8) 。 


In [9]: np.ones((3, 4, 5), dtype=np.float64).strides 
Out[9]: (160, 40, 8) 


虽然 NumPy 用 户 很 少 会 对 数组 的 跨度 信息 感 
兴趣 ， 但 它们 却 是 构建 非 复 制式 数组 视图 的 重要 
因素 。 跨 上 度 甚至 可 以 是 负数 ， 这 样 会 使 数组 在 内 
存 中 后 同 移 动 ， 比 如 在 切片 obj[::-1] 或 obj[:,;::-1] 中 
束 是 这 样 有 的。 


12-1 人 简单 地 说 明了 ndarray 的 内 部 结构 。 


ndarray 对 象 


12-1: NumPy 的 ndarray 对 象 


NumpPy 数 据 类 型 体系 


你 可 能 侦 尔 需要 检查 数组 中 所 包含 的 是 否 是 
整数 、 浮 点 数 、 字 从 串 或 Python 对 象 。 因 为 浮上 所 
数 的 种 类 很 多 ， 判 断 dtype 是 否 属于 某 个 大 类 的 工 
作 非 党 党 琐 。 科 运 的 是 ，dtype 都 有 一 个 超 类 ( 比 
如 np.integer 和 和 np.floating) ， 它 们 可 以 跟 
np.issubdtype 碎 数 结合 使 用 : 


In [10]: ints = np.ones(10, dtype=np.uint16) 


In [11]: floats = np.ones(10, dtype=np.float32) 


In [12]: np.issubdtype(ints.dtype, np.integer) 
Out[12]: True 


In [13]: np.issubdtype(floats.dtype, np.floating) 
Out[13]: True 


调用 dtypeH 的 mro 方 法 即 可 查看 其 所 有 的 父 


In [14]: np.float64.mro() 
Out[14]: 

[numpy .float64, 

numpy .floating, 

numpy .inexact, 

numpy .number, 

numpy .generic, 

float, 

object] 


大 部 分 Numpy 用 户 完全 不 需要 了 解 这 些 知 
识 ， 但 是 这 些 知识 偶尔 还 是 能 派 上 用 场 的 。 图 12- 


2 说 明了 dtype 体 系 以 及 父子 类 关系 1 。 


ET ME 


图 12-2: NumPy 的 dtype 体 系 
详 注 1: 也 驶 是 非 连续 存储 。 
译注 2: 数组 本 吴 不 能 移动 ， 这 里 实际 上 说 的 是 指 
Fi 
注 1: 有 些 dtype 的 名 称 后 面市 有 下 划 线 ， 这 十 为 了 
避免 NumPy 类 型 和 Python 类 型 之 间 的 杰 量 名 冲 
Se o 


高 级 数组 操作 


除 伦 式 么 引 、 切 厂 、 布 尔 条 件 取 了 于 集 等 操作 
之 外 ， 数 组 的 操作 方式 还 有 很 多 。 虽 然 pandas 中 的 
高 级 函数 可 以 处 理 数 据 分 析 工 作 中 的 许多 重型 任 
务 ， 但 有 时 你 还 是 需要 编写 一 些 在 现 有 库 中 找 不 
到 的 数据 算法 。 


效 组 重 塑 


鉴于 我 们 已 经 学 过 的 有 关 NumPy 数 组 的 知 
识 ， 当 你 知道 “无 需 复制 任何 数据 ， 数 组 豆 能 从 一 
个 形状 转换 为 另 一 个 形状 ?时 应 该 会 感到 有 一 点 吃 
惊 。 只 需 回 数组 的 实例 方法 reshape 传 入 一 个 表示 
新 形状 的 元 组 即 可 实现 该 目的 。 假 设 有 一 个 一 维 
数组 ， 我 们 和 希望 将 其 重 狐 排列 为 一 个 矩阵 : 


In [15]: arr = np.arange(8) 


In [16]: arr 
Out[16]: array([0，1，2，3，4，5，6，7]) 


In [17]: arr.reshape((4，2)) 
Out[17] : 
array([[9, 11], 


多 维 数 组 也 能 被 重 闪 : 


In [18]: arr.reshape((4, 2)).reshape((2, 4)) 
Out[18]: 
array([[9, 1, 2, 3], 

[4, 5, 6, 71]) 


” “作为 参数 的 形状 的 其 中 一 维 可 以 是 一 1， 它 表 
示 该 维度 的 大 小 由 数据 本 喘 推 新 而 来 : 
2 


Out[20]: 
array([[ 9， 1, 2], 


[ 9, 190, 11], 
F120. 13>.. 4].1) 


由 于 数组 的 shape 属 性 是 一 个 元 组 ， 因 此 它 也 
可 以 被 传 入 reshape: 


In [21]: other_arr = np.ones((3, 5)) 


In [22]: other_arr.shape 
Out[22]: (3, 5) 
In [23]: arr.reshape(other_arr.shape) 
Out[23]: 
array([[ 9, 1, 2, 3, 4], 
[ 5, 6, 7, 8, 9], 
[10, 11, 12, 13, 14]]) 


与 reshape 将 一 维 数 组 转换 为 多 维 数 组 的 运算 
过 程 相反 的 运算 通常 称 为 局 平 化 (flattening) 或 
散 开 (raveling) 


In [24]: arr = np.arange(15).reshape((5, 3)) In [25]: arr 


Out[25] : 
array([[ 0， 
1 2]; 
ee [ 3, 
ey [ 6, 
10, 11], 0 
13, 14]]) ss 


In [26]: arr.ravel() 
Out[26]: array([ 9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 
11, 12, 13, 14]) 


如 采 没 有 必要 ，ravel 不 会 产生 源 数 据 的 副本 
(下 面 将 详细 介绍 ) 。flatten 方 法 的 行为 类 似 于 
ravel， 只 不 过 它 尽 是 返回 数据 的 副本 : 
In [27]: arr.flatten() 


Out[27]: array([ 6, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 
11, 12, 13, 14]) 


效 组 可 以 被 重 塑 或 做 开 为 别 的 顺序 。 这 对 
NumpPy 新 手 来 说 是 一 个 比较 微妙 的 问题 ， 所 以 在 
下 一 人 小节 中 我 们 将 专门 讲解 这 个 问题 。 


C 和 Fortran 顺 序 
与 其 他 科学 计算 环境 相反 〈 如 R 和 


MATLAB) ，NumpPy 人 允许 你 更 为 灵活 地 控制 数据 
在 内 存 中 的 布局 。 黑 认 情 况 下 ，NumPy 数 组 是 控 


行 优先 顺序 创建 的 。 在 空间 方面 ， 这 整 意味 痢 ， 
对 于 一 个 二 维 数 组 ， 每 行 中 的 数据 项 是 伞 和 存放 在 
相 邻 内 存 位 置 上 的 。 男 一 种 顺序 是 列 优先 顺序 ， 
它 意 味 着 ( 猜 到 了 吧 ) 每 列 中 的 数据 项 是 被 存放 
在 相 邻 内 存 位 置 上 的 。 


由 于 一 些 历史 原因 ， 行 和 列 优先 顺序 又 分 别 
称 为 C 和 Fortran 顺 序 。 在 FORTRAN 77 中 (前 非 们 
的 语言 ) ， 逢 阵 全 都 是 列 优先 的 。 


像 reshape 和 reval 这 样 的 函 效 ， 都 可 以 接受 一 
个 表示 数组 数据 存放 顺序 的 order 参 数 。 一 般 可 以 
是 'C' 或 F' (还 有 'A' 和 ' 民 ' 等 不 常用 的 选项 ， 具 体 请 
参考 NumPy 的 文档 ) 。 图 12-3 对 此 进行 了 说 明 。 


In [28]: arr = np.arange(12).reshape((3, 4)) 


In [29]: arr 


Out[29]: 

array([[ 0, 1, 2, 3], 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11]]) 


In [30]: arr.ravel() 

Out[30]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 
11]) 

In [31]: arr.ravel('F') 

Out[31]: array([ 0, 4, 8, 1, 5, 9, 2, 6, 10, 3, 7, 
11]) 


二 维 或 更 高 维 数组 的 重 逆 过 程 比较 令 人 费 
解 。C 和 Fortran 顺 序 的 关键 区 别 束 是 维度 的 行进 顺 


厅 : 


C/ 行 优先 顺序 : 移 经 过 更 高 的 维度 (例如 ， 
轴 1 会 完 于 轴 0 被 人 处理) 。 


-Fortran/ 列 优先 顺序 .后 经 过 更 高 的 维度 〈 例 
如 ， 轴 0 会 和 完 于 轴 1 被 处 理 ) 。 


数组 的 合并 和 拆 分 
numpy.concatenate 可 以 按 指定 轴 将 一 个 由 数组 
组 成 的 序列 (如 元 组 、 列 表 等 ; 连接 到 一 起 。 


In [32]: arr1 = np,array([[1，2，3]，[4，5，6]]) 
In [33]: arr2 = np,array([[7，8，9]，[10，11，12]]) 


In [34]: np.concatenate([arr1，arr2]，axis=0) 


Out[34]: 

array([[ 1 2, 3], 
[ 4, 5, 6], 
[ 7, 8, 9], 
[10, 11, 12]]) 


In [35]: np.concatenate([arri, arr2], axis=1) 
Out[35]: 
array([[ 1, 2, 3, 7, 8, 9], 

[ 4, 5, 6, 10, 11, 12]]) 


L072)7 ssi 


arr.reshape((4, 3), order=?) 


Fortran 顺序 ( 列 优先 ) 


order="F" 


图 12-3: 按 C ( 行 优 先 ) 或 Fortran ( 列 优 先 ) 顺序 
进行 重 塑 
对 于 和 常见 的 连接 操作 ，NumPy 提 供 了 一 些 比 
较 方 便 的 方法 〈 如 vstack 和 hstack) 。 因 此 ， 上 面 
的 运算 还 可 以 表达 为 : 


In [36]: np.vstack((arr1，arr2) ) In [37]: np.hstack((arr1, 


arr2)) 
Out[36]: Out[37]: 
array([[ 1, 2, 3], array([[ 1, 2, 3, 7, 
8, 9], 

[ 4, 5, 6], [ 4, 5, 6, 10, 
11, 12]]) 


[ 7， 8, 9], 
[10, 11, 12]]) 


二 此 相反 ，split 用 于 将 一 个 数组 沿 指 是 轴 拆 分 
为 多 个 数组 : 


In [38]: 


from numpy.random Import randn 


In [39]: arr = randn(5, 2) In [40]: arr 
Out[40] : 
array([[ 0.1689, 0.3287], 
[ 0.4703, 0.89891], 
[ 0.1535, 0.0243], 
[-0.2832, 1.1536], 
[ 0.2707, 0.8075]]) 
In [41]: first, second, third = np.split(arr, [1, 3]) 
In [42]: first 
Out[42]: array([[ 0.1689, 0.3287]]) 
In [43]: second In [44]: third 
Out[43]: Out[44]: 
array([[ 0.4703, 0.8989], array([[-0.2832, 
1.1536], 
[ 0.1535, 0.0243]]) [ 0.2707, 
0.8075]]) 


表 12-1 中 列 出 了 所 有 天 于 数组 连 授 和 拆 分 的 
济 数 ， 其 中 有 些 是 专 | ] 为 了 方便 肖 见 的 连 毛 运 算 
而 提供 的 。 


表 12-1: 数组 连接 函数 和 3 


函数 说 明 

concatenate 最 一 般 化 的 连接 ， 沿 一 条 轴 连 接 一 组 数组 
vstack、row_stack 以 面向 行 的 方式 对 数组 进行 堆 翅 ( 沿 轴 0) 
hstack 以 面向 列 的 方式 对 数组 进行 堆 翅 ( 沿 轴 1) 


column_stack 


dstack 


split 


类 似 于 hstack， 但 是 会 先 将 一 维 数组 转换 为 二 维 列 向 量 
以 面向 “深度 ”的 方式 对 数组 进行 堆 亚 〈 沿 轴 2 ) 
沿 指定 轴 在 指定 的 位 置 拆 分 数组 


hsplit、 vsplit、 dsplit split 的 便捷 化 函数 ， 分 别 沿 轴 0、 轴 1、 轴 2 进行 拆 分 


译注 3: 这 里 面 还 有 拆 分 图 数 。 


堆 琶 辅助 类 : r_ 和 c_ 


NumpPy 命 名 空 
和 c_， 它 们 可 以 使 数组 的 堆 丢 操作 妇 为 答 洁 


In [45]: arr = np.arange(6) 
In [46]: arr1 = arr.reshape((3, 2)) 


In [47]: arr2 = randn(3, 2) 


In [48]: np.r_[arri, arr2] In [49] : 
np.c_[np.r_[arri, arr2], arr] 
Out[48]: Out[49]: 
array([[ 0. ; 1 ], array([[ 0. pe 
0. ， 
[ 2 / 3 ]， [ 2 ， 3 
1 ls 
[ 4 ， 5 ]， [ 4 1， 5 
2. ]， 
[ 0.7258, -1.5325], [ 0.7258, -1.5325 
3 ]， 
[-0.4696, -0.2127], [-0.4696, -0.2127, 
4. | 
[-0.1072, 1.2871]]) [-0.1072, 1.2871 
] 


此 外 ， 它 还 可 以 将 切 厂 翻译 为 数组 : 


In [50]: np.c_[1:6, -10:-5] 


Out[50]: 

array([[ 1, -10], 
[ 2, -9], 
[ 3, -8], 
[ 4, -7], 
[ 5, -6]]) 


5_ 和 的 具体 功能 请 参考 其 文档 。 
元 又 的 重复 探 作 : tile 和 repeat 


注意 : 跟 其 他 流行 的 数组 编程 语言 (如 
MATLAB) 不 同 ，NumPy 中 很 少 需要 对 数组 进行 
重复 (replicate) “4。 这 主要 是 因为 广播 
(broadcasting， 我 们 将 在 下 一 节 中 讲解 该 技术 ) 
能 更 好 地 满足 该 需求 。 

对 数组 进行 重复 以 产生 更 大 数组 的 工具 主要 
是 repeat 和 tile 这 两 个 芳 数 。repeat 会 将 数组 中 的 各 
PE 0 


In [51]: arr = np.arange(3) 


In [52]: arr.repeat(3) 
Out[52]: array([0, 0, 90, 1, 1, 1, 2, 2, 2]) 


默认 情况 下 ， 如 末 传 入 的 古 一 个 整数 ， 则 各 
元 素 束 部 会 重复 那么 多 次 。 如 琳 传 入 的 十 一 组 整 
数 ， 则 各 元 勾 束 可 以 重复 不 同 的 次 数 : 


In [53]: arr.repeat([2, 3, 4]) 
Out[53]: array([90, 0, 1, 1, 1, 2, 2, 2, 2]) 


对 于 多 维 数 组 ， 还 可 以 让 它们 的 元 聚 沿 指定 
轴 重 复 。 


In [54]: arr = randn(2, 2) 


In [55]: arr 
Out[55] : 
array([[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]]) 
In [56]: arr.repeat(2, axis=0) 
Out[56]: 
array([[ 0.7157, -0.6387], 
[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]， 
[ 0.3626, 0.849 ]]) 


注意 ， 如 来 没有 设置 轴 同 ， 则 数组 会 个 局 平 
化 ， 这 可 能 不 会 是 你 想 要 的 结 来 。 同 样 ， 在 对 多 
维 进行 重复 时 ， 也 可 以 传 入 一 组 整 效 ， 这 样 融会 
使 各 切 厂 重复 不 同 的 次 数 : 


In [57]: arr.repeat([2, 3], axis=0) 


Out[57]: 

array([[ 0.7157, -0.6387], 
[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]， 
[ 0.3626, 0.849 ]， 
[ 0.3626, 0.849 ]]) 


In [58]: arr.repeat([2, 3], axis=1) 

Out[58]: 

array([[ 0.7157， 0.7157, -0.6387, -0.6387, -0.6387], 
[ 0.3626, 0.3626, 0.849 ， 0.849 ， 0,.849 ]]) 


tile 的 功能 是 沿 指 是 轴 辣 堆 秆 数组 的 副本 。 你 
可 以 形象 地 将 其 想象 成 “ 铺 合 契 ”: 


In [59]: arr 

Out[59] : 

array([[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]]) 


In [60]: np.tile(arr, 2) 

Out[60] : 

array([[ 0.7157, -0.6387, 0.7157, -0.6387], 
[ 0.3626, 0.849 ， 0.3626, 0.849 ]]) 


第 二 个 参数 是 舍 矶 的 数量 。 对 于 标量 ， 移 想 
征 水 平 铺设 的 ， 而 不 是 垂直 铺设 。 它 可 以 是 一 个 
表示 “铺设 ”布局 的 元 组 : 


In [61]: arr 

Out[61]: 

array([[ 0.7157, -0.6387], 
[ 0.3626， 0.849]]) 


In [62]: np.tile(arr, (2, 1)) In [63]: np.tile(arr, (3, 
2)) 
Out[62]: Out[63]: 
array([[ 0.7157, -0.6387], array([[ 0.7157, -0.6387, 
0.7157, -0.6387], 

[ 0.3626, 0.8491], [ 0.3626, 0.849 
0.3626, 0.849 ]， 

0.7157, -0.6387], [ 0.7157, -0.6387, 

0.7157, -0.6387], 

[ 0.3626, 0.849 ]]) [ 0.3626, 0.849 
0.3626, 0.849 1], 


[ 0.7157, -0.6387, 
0.7157, -0.6387], 

[ 0.3626, 0.849 
0.3626, 0.849 ]]) 


化 式 索 引 的 等 价 久 数 : take 和 put 


在 第 4 草 中 我 们 讲 过 ， 获 取 和 设置 数组 子 集 的 
一 个 办 法 古 通 过 整数 数组 使 用 化 式 系 3 引 |: 
In [64]: arr = np.arange(10) * 100 


In [65]: inds = [7, 1, 2, 6] In [66]: arr[inds] 


Out[66]: array([700， 


100, 200, 600]) 


ndarray 有 两 个 方法 专门 用 于 获 取 和 设置 单个 
轴 同 上 的 选区 : 


In [67]: 
Out[67]: 


In [68]: 


In [69]: 
Out[69] : 


9001] ) 


In [70]: 


In [71]: 
Out[71]: 


900] ) 


arr.take(inds) 
array([700, 100, 200, 600]) 


arr.put(inds, 42) 

arr 

array([ 0, 42, 42, 300, 400, 500, 42, 42, 800, 
arr.put(inds, [40, 41, 42, 43]) 


arr 
array([ 60， 41, 42, 300, 400, 500, 43, 40, 800, 


要 在 其 他 轴 上 使 用 take ， 7 只 需 传 入 axis 关 键 字 


吓 可 : 


In [72]: 
In [73]: 


In [74]: 
Out[74]: 


inds = [2, 0, 2, 1] 
arr = randn(2, 4) 


arr 


array([[-0.8237, 2.6047, -0.4578, -1. 


In [75]: 
Out[75]: 


了 
[ 2.3198，-1.0792， 0.518 ， 0.2527]]) 


arr.take(inds, axis=1) 


array([[-0.4578, -0.8237, -0.4578, 2.6047], 


[ 0.518 , 2.3198, 0.518 , -1.0792]]) 


put 丰 接受 axis 参 数 ， 它 只 会 在 数组 的 局 平 化 
版 本 (一 维 ，C 顺 序 ) 上 进行 索引 (这 一 点 今后 应 
该 是 会 有 所 改善 的 ) 。 因 此 ， 在 需要 用 其 他 轴 问 
的 索引 设置 元 系 时 ， 最 好 还 十 使 用 化 式 索 3 引 。 


注意 : 直到 编写 本 书 时 为 止 ，take 和 put 函 数 
的 性 能 通 弟 要 比 化 式 索 引 好 得 多 。 我 认为 这 是 一 
个 "bug"，NumPy 中 应 该 有 什么 东西 需要 修正 才 
对 。 当 你 用 整数 数组 选取 大 数组 的 子 集 时 ， 最 好 


还 是 注意 一 下 这 个 问题 : 


In [76]: arr = randn(1000, 50) 


# 500 行 随机 样 
In [77]: inds = np.random.permutation(1000)[:500] 


In [78]: %timeit arr[inds] 
1000 loops, best of 3: 356 us per loop 


In [79]: %timeit arr.take(inds, axis=0) 
10000 loops, best of 3: 34 us per loop 


译 汪 4 放牧 采 双 吴 寻 后 油 学 ”所 区 刘 还 是 
该 解释 一 下 。 虽 然 都 是 “重复 ”， 但 可 以 这 样 理 
解 : duplicate 是 结果 ，replicate 是 造成 duplicate 的 过 
程 。 


广播 


广播 (broadcasting) 指 的 是 不 同形 状 的 数组 
之 间 的 算术 运算 的 执行 方式 。 它 古 一 种 非 营 强大 
的 功能 ， 但 也 容易 令 人 人 误解， 即使 是 经 验 丰 富有 的 
老手 也 是 如 此 。 将 标量 值 跟 数组 合并 时 束 会 发 生 
最 何 早 的 广播 : 

In [80]: arr = np.arange(5) 

In [81]: arr In [82]: arr * 4 

Out[81]: array([0, 1, 2, 3, 41]1) Out[82]: array([ 0， 4, 

8, 12, 16]) 

这 里 我 们 说 : 在 这 个 乘法 运算 中 ， 标 量 值 4 被 
广播 到 了 其 他 所 有 的 元 素 上 。 


再 来 看 一 个 例子 ， 我 们 可 以 通过 减 去 列 平 均 

值 的 方式 对 数组 的 每 一 列 进行 距 平 化 处 理 。 这 个 
问题 解决 起 来 非常 何 单 : 
In [83]: arr = randn(4, 3) 


In [84]: arr.mean(0) 
Out[84]: array([ 0.1321, 0.552 , 0.8571]) 


In [85]: demeaned = arr - arr.mean(0) 


In [86]: demeaned In [87]: 
demeaned .mean(0) 
Out[86]: Out[87]: array([ 


6. 20. 0 


array([[ 0.1718, -0.1972, -1.3669], 
[ -0.1292, 1.6529, -0.3429], 
[ -0.2891, -0.0435, 1.2322], 
[ 0.2465, -1.4122, 0.4776]]) 


图 12-4 形 象 地 展示 了 该 过 程 。 用 广播 的 方式 
对 行进 行距 平 化 处 理会 稍微 麻烦 一 些 。 科 和 运 的 
是 ， 只 要 遵循 一 定 的 规则 ， 低 维度 的 值 是 可 以 被 
广播 到 数组 的 任意 维度 的 (比如 对 二 维 数 组 各 列 
城 去 行 平 均值 ) 。 于 是 就 得 到 了 : 


(4 3) G3, ) (4, 3) 


回回 杏 遇 ED 
四 本 下 ”LU 


图 12-4: 一 维 数组 在 轴 0 上 的 广播 


广播 的 原则 
如 果 两 个 数组 的 后 缘 维 度 (trailing dimension， 即 从 末尾 开始 算 起 的 维度 ) 的 轴 长 
度 相 符 或 其 中 一 方 的 长 度 为 1， 则 认为 它们 是 广播 兼容 的 。 广 播 会 在 缺失 和 (或 ) 
长 度 为 1 的 维度 上 进行 。 


虽然 我 站 一 名 经 准 丰 曙 的 NumPy 老 和 于 ， 但 经 
前 还 是 得 俘 下 来 画 张 图 并 想 想 广播 的 原则 。 再 来 
看 一 下 最 后 那个 例 和 于， 假设 你 布 望 对 各 行 减 去 那 


个 平均 值 。 由 于 arrmean(0) 的 长 度 为 ?3， 所 以 它 可 
以 在 0 轴 间 上 进行 广播 : 因为 arr 的 后 绿 维度 是 3， 
所 以 它们 是 莱 容 的 。 根 据 该 原则 ， 要 在 1 轴 同 上 做 
减法 ( 即 各 行 减 去 行 平均 值 ，， 较 小 的 那个 数组 
的 形状 必须 是 (4,1): 


In [88]: arr 

Out[88]: 

array([[ 0.3039, 0.3548, -0.5097], 
[ 0.0029, 2.2049, 0.5142], 
[ -0.1571, 0.5085, 2.0893], 
[ 0.3786, -0.8602, 1.3347]]) 


In [89]: row_means = arr.mean(1) In [90]: 
row_means.reshape((4, 1)) 
Out[90]: 
array([[ 0.0496], 
[ 0.9073], 
[ 0.8136], 
[ 0.2844]]) 


In [91]: demeaned = arr - row means.reshape((4, 1)) 


In [92]: demeaned.mean(1) 
Out[92]: array([ 0., 0., 0., 0.]) 


你 的 头 还 没 炸 吧 ? 图 12-5 说 明了 该 运算 的 过 


图 12-5: 二 维 数组 在 轴 1 上 的 广播 


图 12-6 展 示 了 另外 一 种 情况 ， 这 次 是 在 一 个 
三 维 数组 上 治 0 轴 辐 加 上 一 个 二 维 数组 。 


图 12-6: 三 维 数组 在 轴 0 上 的 广播 
泊 其 他 轴 癌 广播 


高 维度 数组 的 广播 似乎 更 难以 理解 ， 而 实际 
上 它 也 古人 人 循 广播 原则 的 。 如 琳 不 然 ， 你 束 会 得 
到 下 面 这 样 一 个 铺 误 : 


In [93]: arr - arr.mean(1) 


ValueError Traceback (most 
recent call last) 

<ipython-input-93-7b87b85a20b2> in <module>() 

----> 1 arr - arr.mean(1) 

ValueError: operands could not be broadcast together with 
shapes (4,3) (4) 


人 们 经 铅 需 要 通过 算术 运算 过 程 将 较 低 维度 
的 数组 在 除 0 轴 以 外 的 其 他 轴 回 上 广播 。 根 据 广播 
的 原则 ， 较 小 数组 的 “广播 维 " 必 须 为 1。 在 上 面 那 
个 行距 平 化 的 例子 中 ， 这 就 意味 着 要 将 行 平均 值 
的 形状 变 成 (4,1) 而 不 是 (4,): 

In [94]: arr - arr.mean(1).reshape((4, 1)) 
Out[94]: 
array([[ 0.2542, 0.3051, -0.5594], 

[ -0.9044, 1.2976, -0.3931], 


[ -0.9707, -0.3051, 1.2757], 
[ 0.0942, -1.1446, 1.0503]]) 


对 于 三 维 的 情况 ， 在 三 维 中 的 任何 一 维 上 广 
播 其 实 也 吏 生 将 数据 重 塑 为 兼容 的 形状 而 已 。 匈 
人 


整个 数组 的 形状 : (8，5，3) 轴 2: (8，5，1) 


Bi 
状 


于 是 束 有 了 一 个 非常 普遍 的 问题 (尤其 是 在 
通用 算法 中 ) ， 即 专门 为 了 广播 而 添加 一 个 长 度 
为 1 的 新 轴 。 虽然 reshape 是 一 个 办 法 ， 但 插入 轴 需 
要 构造 一 个 表示 新 形状 的 元 组 。 这 是 一 个 很 郁 问 
的 过 程 。 因 此 ，NumPy 数 组 提供 了 一 种 通过 索引 
机 制 插入 轴 的 特殊 语法 。 下 面 这 上段 代码 通过 特殊 
的 np.newaxis 属 性 以 及 “全 ?” 切 上 来 插入 痢 轴 : 

In [95]: arr = np.zeros((4, 4)) 
In [96]: arr 3d = arr[:, np.newaxis, :] 


In [97]: arr_3d.shape 
Out[97]: (4, 1, 4) 


In [98]: arr_1d = np.random.normal(size=3) 


In [99]: arr_1d[:，np,newaxis] In [100] : 
arr_1d[np.newaxis，:] 
Out[99] : Out[100] : 
array([[-0.3899, 0.396 ，-0.1852]]) 
array([[-0.3899], 

[ 0.396 ]， 

[ -0.1852]]) 


因此 ， 如 采 我 们 有 一 个 三 维 数组 ， 并 布 望 对 
轴 2 进 行距 平 化 ， 那 么 只 需要 编写 下 面 这 样 的 代码 
束 可 以 了 : 


In [101]: arr = randn(3, 4, 5) 
In [102]: depth_means = arr.mean(2) 


In [103]: depth_means 

Out[103] : 

array([[ 0.1097， 0,3118，-0.5473， 0.2663], 
[ 0.1747, 0.1379, 0.1146, -0.4224], 
[ 0.0217, 0.3686, -0.0468, 1.3026]]) 


In [104]: demeaned = arr - depth means[:, :, Np.newaxis] 
In [105]: demeaned.mean(2) 
Out[105]: 
array([[ 0., 0., -0., 0.1], 
[ 0., -0., -0., 0.], 
[ -0., -0., 0., 0.]1]) 


也 许 你 会 对 此 感到 非常 困惑 。 不 用 担心 ， 只 
要 多 动手 ， 很 快 束 能 搞 明 日 | 


有 些 读者 可 能 会 想 ， 在 对 指定 轴 进 行距 平 化 
时 ， 有 没有 一 种 既 通 用 叉 不 牺牲 性 能 的 方法 呢 ? 
实际 上 是 有 的 ， 但 需要 一 些 索 引 方面 的 技巧 : 


def demean axis(arr, axis=0): 
means = arr.mean(axis) 


# 下 面 这 些 一 般 化 的 东西 类 似 于 N 维 的 [:，:，np.newaxis] 
indexer = [slice(None)] * arr.ndim 
Indexer[axis] = np.newaxis 

return arr - means[indexer] 


通过 广播 设置 数组 的 值 

拭 术 运算 所 如 循 的 广播 原则 同样 也 适用 于 通 
过 索引 机 制 设置 数组 值 的 操作 。 对 于 最 何 持 的 情 
况 ， 我 们 可 以 这 样 做 : 


In [106]: arr = np.zeros((4, 3)) 


In [107]: arr[:] = 5 In [108]: arr 
Out[108]: 
array([[ 5., 5., 5.1], 
557 5. Sl]; 
[5 
[ 5., 5., 5.]]) 


再 看 一 个 复 洒 所 的 例子 ， 假 设 我 们 想 要 用 一 
个 一 维 数 组 来 设置 目标 数组 的 各 列 。 只 要 你 证 形 
状 莱 容 束 可 以 了 : 
In [109]: col = np.array([1.28, -0.42, 0.44, 1.6]) 
In [110]: arr[:] = col[:, np.newaxis] In [111]: arr 
Out[111] : 


array([[ 1.28, 


[ 


[ 90.44， 


1.28, 1.28], 


1., 


6 ， 


1.6 ]]) 


In [112]: arr[:2] = [[-1.37]，[6.509]] 


了 


了 


了 


ss 


.509, 0.509], 


0.44 ]， 


1.6 ]]) 


[ 1.6 ， 


In [113]: arr 
Out[113]: 
array([[-1.37 


ufunc 高 级 应 用 


虽然 许多 NumPy 用 户 只 会 用 到 通用 函数 所 提 
供 的 快速 的 元 素 级 运算 ， 但 通用 函数 实际 上 还 有 
eo 。 法 能 使 我 们 丢 开 循环 而 编写 出 更 为 傈 
污 的 代码 。 


ufunc 实 例 方法 


NumPy 的 各 个 二 元 ufunc 都 有 一 些 用 于 执行 特 
定 天 量化 运算 的 特殊 方法 。 和 12-2 汇 氮 了 这 些 方 
人 下 面 我 将 通过 几 个 有 具体 的 例子 对 它们 进行 说 
明 。 


reduce 接 受 一 个 数组 参 效 ， 并 通过 一 系列 的 二 
元 运算 对 其 值 进行 聚合 〈 可 指明 轴 同 ) 。 例如， 
我 们 可 以 用 np.add.reduce 对 数组 中 各 个 元 素 进 行 求 
和 : 


In [114]: arr = np.arange(10) 


In [115]: np.add.reduce(arr ) 
Out[115]: 45 


In [116]: arr.sum() 
Out[116] : 45 


起 始 值 取 决 于 ufunc “对 于 add 的 情况 ， 就 是 
0) 。 如 果 设 置 了 轴 号 ， 约 人 简 运 算 就 会 沿 该 轴 辣 执 
行 。 这 殉 使 你 能 用 一 种 比较 简洁 的 方式 得 到 有 某 些 
问题 的 答案 。 在 下 面 这 个 例子 中 ， 我 们 用 
ee 分 碍 数组 各 行 中 的 值 是 否 是 有 序 


In [118]: arr = randn(5, 5) 


In [119]: arr[::2].sort(1) # 对 部 分 行进 行 排序 


In [120]: arr[:, :-1] < arr[:, 1:] 

Out[120]: 

array([[ True, True, True, Truel], 

False, True, False, Falsel], 

[ True, True, True, Truel, 

[ True, False, True， True]， 

[ True, True, True, True]]，dtype=bool) 


| si 


In [121]: np.logical and.reduce(arr[:, :-1] < arr[:, 1:], 
axis=1) 

Out[121]: array([ True, False, True, False, Truel], 
dtype=boo1) 


当然 了 ，logical_and.reduce 跟 al] 方 法 是 等 价 
的 。 


accumulate 跟 reduce 的 关系 束 像 cumsum 跟 Sum 
的 天 系 那 样 。 它 产生 一 个 跟 原 数组 大 小 相同 的 中 
间 “ 过 计 ” 值 数组 : 


In [122]: arr = np.arange(15).reshape((3, 5)) 


In [123]: np.add.accumulate(arr, axis=1) 
Out[123] : 


array([[ 0，1， 3, 6, 10], 
[ 5, 11, 18, 26, 35], 
[10, 21, 33, 46, 60]]) 


outer 用 于 计算 两 个 数组 的 叉 积 : 


In [124]: arr = np.arange(3).repeat([1, 2, 2]) 


In [125]: arr 
Out[125]: array([90, 1, 1, 2, 2]) 


In [126]: np.multiply.outer(arr, np.arange(5)) 
Out[126]: 
array([[9, 


| se | 
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outer 输 出 结果 的 维度 是 两 个 输入 数据 的 维度 
中 


In [127]: result = np.subtract.outer(randn(3, 4), randn(5)) 


In [128]: result.shape 
Out[128]: (3, 4, 5) 


最 后 一 个 方法 reduceat 用 于 计算 “局 部 约 简 ”， 
其 实 束 是 一 个 对 数据 各 切片 进行 聚合 的 groupby 运 
算 。 虽 然 其 灵活 性 不 如 pandas 的 groupby 功 能 ， 但 
它 在 适当 的 情况 下 运算 会 非常 快 。 它 接受 一 组 用 
于 指示 如 何 对 值 进 行 拆 分 和 聚合 的 “ 面 元 边界 ”: 


In [129]: arr = np.arange(10) 


In [130]: np.add.reduceat(arr, [0, 5, 8]) 
Out[130]: array([10, 18, 17]) 


最 终结 果 是 在 arr[0:5]、 li 8] 以 及 arr[8:] 上 执 
行 的 约 简 (本 例 中 就 是 求 和 ) 。 跟 其 他 方法 一 
样 ， 这 里 也 可 以 传 入 一 个 axis 参 数 


In [131]: arr = np.multiply.outer(np.arange(4), np.arange(5)) 
In [132]: arr In [133]: np.add.reduceat(arr, 
[0, 2, 4], axis=1) 
Out[132]: Out[133] : 
array([[ 0， 9090，0，90，90]，array([[ 9, 9, 090], 
0, 1, 2, 3, 了 [ 二 > 5, 4], 
[ 0, 2, 4, 6, 8], [ 2, 19, 8], 
[ 90, 3, 6, 9, 12]1]) [ 3, 15, 12]]) 
表 12-2: Ufunc 的 方法 
为 法 说 明 
reduce(X) 通过 连续 执行 原始 运算 的 方式 对 值 进行 聚 


accumulate(x) 聚合 值 ， 保 留 所 有 局 部 聚合 结 
reduceat(x, bins) “ “局 部 ” 约 简 (也 就 是 groupby) 。 约 简 数 据 的 各 个 切片 以 产生 聚合 


型 数组 
outer(x, y) 对 x 和 y 中 的 每 对 元 素 应 用 原始 运算 。 结 果 数 组 的 形状 为 x.shape + 
y.shape 
Pm 
目 定 义 ufunc 


有 两 个 工具 可 以 让 你 将 日 定义 函数 像 ufunc 那 
样 使 用 。numpyfrompyfunc 接 受 一 个 Python 函数 以 
及 两 个 分 别 表示 输入 输出 参数 数量 的 整数 。 例 


如 ， 下 面 是 一 个 能 够 实现 元 系 级 加 法 的 商 单 函 
数 : 


In [134]: def add_elements(x, y): 
es return x+y 


In [135]: add_ them = np.frompyfunc(add elements, 2, 1) 


In [136]: add_ them(np.arange(8), np.arange(8)) 
Out[136]: array([90, 2, 4, 6, 8, 10, 12, 14], dtype=object) 


用 frompyfunc 创 建 的 范 数 忆 是 返回 Python 对 和 象 
数组 ， 这 一 点 很 不 方便 。 和 亚运 的 是 ， 还 有 为 一 个 
办 法 ， 即 numpyvectorize。 虽 然 没 有 frompyfunc 那 


么 强大 ， 但 它 在 类 型 推断 方面 要 更 乔 能 一 些 : 


In [137]: add_them = np.vectorize(add elements, otypes= 
[np.float64]) 


In [138]: add_them(np. 0 np.arange(8)) 
Out[138]: J 0., / 4.， 
8., 10., 12., 14.]) 


虽然 这 两 个 玉 数 提供 了 一 种 创建 ufunc 型 函数 
的 手段 ， 但 它们 非常 慢 ， 因 为 它们 在 计算 每 个 元 
素 时 都 要 执行 一 次 Python 范 数 调用 ， 这 目 然 会 比 
NumpPy 目 市 的 基于 C 的 ufunc 慢 很 多 : 


In [139]: arr = randn(10000) 


In [140]: %timeit add_them(arr，arr) 
100 loops, best of 3: 2.12 ms per loop 


In [141]: %timeit np.add(arr, arr) 
100000 loops, best of 3: 11.6 us per loop 


为 此 ，Python 科 学 计算 社区 正在 开发 一 些 项 
目 ， 力 求 使 目 定 义 ufunc 的 性 能 接近 内 置 的 那些 。 


结构 化 和 记 永 陈 效 组 


你 可 能 已 经 注意 到 了 ， 到 目前 为 止 我 们 所 讨 
论 的 ndarray 都 古 一 种 同 质 数据 容器 ， 也 束 是 说 ， 
在 它 所 表示 的 内 存 块 中 ， 各 元 系 占 用 的 字 世 数 相 
同 (具体 根据 dtype 而 定 ) 。 从 表面 上 看 ， 它 似乎 
不 能 用 于 表示 异 质 或 表格 型 的 数据 。 结 构 化 数组 
是 一 种 特殊 的 ndarray， 其 中 的 各 个 元 系 可 以 说 看 
做 C 语 言 中 的 结构 体 (struct， 这 就 是 “结构 化 ”的 
由 来 ) 或 SQL 表 中 带 有 多 个 命名 字段 的 行 : 


In [142]: dtype = [('x', np.float64), ('y', np.int32)] 


In [143]: sarr = np.array([(1.5, 6), (np.pi, -2)1], 

dtype=dtype) 

In [144]: sarr 

Out[144]: 

array([(1.5，6)，(3.141592653589793， -2)]， 
dtype=[('x', <f8 )，( yy， <i4 )]) 


定义 结构 化 dtype 〈 请 参考 NumPy 的 在 线 文 
档 ) 的 方式 有 很 多 。 最 典型 的 办 法 是 元 组 列表 ， 
各 元 组 的 格式 为 (field_name,field_data_type)°。 这 
样 ， 数 组 的 元 素 束 成 了 元 组 式 的 对 象 ， 该 对 象 中 
各 个 元 系 可 以 像 字典 那样 进行 访问 


In [145]: sarr[0] 
Out[145]: (1.5, 6) 


In [146]: sarr[0]['y'] 
Out[146]: 6 


字段 名 保存 在 dtype.names 属 性 中 。 在 访问 结 
构 化 数组 的 某 个 字段 时 ， 返 回 的 是 该 数据 的 视 
图 ， 所 以 不 会 发 生 数 据 复制 ; 


In [147]: sarr['x'] 
Out[147]: array([ 1.5 ， 3.1416]) 


仍 父 dtype 和 多 维 字 段 


在 定义 结构 化 dtype 时 ， 你 可 以 再 设置 一 个 形 
状 〈 可 以 是 一 个 整数 ， 也 可 以 是 一 个 元 组 ) : 


In [148]: dtype = [('x', np.int64, 3), ('y', np.int32)] 
In [149]: arr = np.zeros(4, dtype=dtype) 
In [150]: arr 
Out[150]: 
array([([9, 9, 0], 0), ([9, 9, 0], 90), ([9, 9, 96], 0), ([9, 
0, 90], 0)], 
dtype=[('x', '<i8', (3,)), ('y', '<i4')]) 


在 这 种 情况 下 ， 各 个 记 孙 的 x 字段 所 表示 的 十 
一 个 长 度 为 3 的 数组 : 


In [151]: arr[ol]['x'] 
Out[151]: array([0, 0, 0]) 


访问 arr[x] 即 可 得 到 一 个 二 维 数组 ， 而 不 是 
寻 徊 那个 例子 中 的 一 维 效 组 : 

In [152]: arr['x'] 

Out[152]: 

array([[90, 90, 0], 
[9, 0, 0], 
[9, 0, 0], 
[9, ©0, 0]]) 


这 束 使 我 们 能 用 早 个 数组 的 内 存 块 存放 复 灯 
的 藤 侠 结构 。 有 既然 dtype 可 以 想 怎 么 复杂 殉 怎 么 复 
杂 ， 那 为 什么 不 试 试 散 侠 dtype 呢 ? 下 面 是 一 个 简 
单 的 例子 : 

In [153]: dtype = [('x', [('a'’, 'f8'), ('b’, 'f4')]), ('y', 
np.int32)] 


In [154]: data = np.array([((1, 2), 5), ((3, 4), 6)1], 
dtype=dtype) 
In [155]: data['x'] 
Out[155]: 
array([(1.0, 2.0), (3.0, 4.0)1], 
dtype=[('a', '<f8'), ('b', '<f4')]) 


In [156]: dataf['y'] 
Out[156]: array([5, 6], dtype=int32) 


In [157]: data['x']['a'] 
Out[157]: array([ 1., 3.]1) 
不 难看 出 ， 可 变形 状 的 字段 和 舱 套 记 孙 征 一 
种 非常 强大 的 功能 。 与 此 相 比 ，pandas 的 


DataFrame 并 不 直接 文 持 该 功能 ， 但 它 的 分 层 索 引 
机 制 跟 这 个 才 不 多 。 


为 什么 要 用 结构 化 数组 


跟 pandas 的 DataFrame 相 比 ，NumPy 的 结构 化 
数组 是 一 种 相对 较 低 级 的 工具 。 它 可 以 将 单个 内 
存 块 解释 为 市 有 任意 复杂 骸 僚 列 的 表格 型 结构 。 
由 于 数组 中 的 每 个 元 素 在 内 存 中 都 被 表示 为 固定 
的 字 廊 数 ， 所 以 结构 化 数组 能 够 提供 非常 快速 高 
效 的 磁盘 数据 读 写 (包括 内 存 映 像 ， 稍 后 将 详细 
介绍 ) 、 网 络 传输 等 功能 。 


结构 化 数组 的 另 一 个 第 见 用 法 是 ， 将 数据 文 
件 写 成 定 长 记录 字 世 流 ， 这 是 C 和 C++ 代码 中 稍 见 
的 数据 序列 化 手段 (业界 许多 历史 系统 中 都 能 找 
得 到 ) 。 只 要 知道 文件 的 格式 (记录 的 大 小 、 元 
素 的 顺序 、 字 市 数 以 及 数据 类 型 等 ，， 束 可 以 用 
np.fromfile 将 数据 读 入 内 存 。 这 种 用 法 超出 了 本 书 
的 范围 ， 只 要 知道 有 这 人 么 一 回 事 殴 可 以 了 。 


结构 化 数组 控 作 : numpy.lib.recfunctions 


适用 于 结构 化 数组 的 函数 没有 DataFrame 那 么 
多 。NumPy 模 块 numpyjlib.recfunctions 中 有 一 些 用 


于 增删 字段 或 执行 基本 连接 运算 的 工具 。 对 于 这 
些 工 具 ， 我 们 需要 记 住 的 是 : 一 般 都 需要 创建 一 
个 新 数组 以 便 对 dtype 进 行 修 改 (比如 添加 或 删除 
一 列 ) 。 这 些 画 数 就 留 给 有 兴趣 的 读者 自己 去 研 
究 了 ， 因 为 本 书 中 不 会 用 到 它们 。 


更 多 有 关 排 序 的 话题 


跟 Python 和 内置 的 列表 一 样 ，ndarray 的 sort 实例 
方法 也 是 束 地 排序 。 也 束 是 说 ， 数 组 内 容 的 重新 
排列 是 不 会 产生 新 数组 的 : 

In Ti158]，arr = rangdn(6】 
In [159]: arr.sort() 
In [160]: arr 


out[160]: array([-1.082 ， 0.3759, 0.8014, 1.1397, 1.2888, 
1.8413]) 


在 对 数组 进行 就 地 排序 时 要 注意 一 点 ;如果 
目标 数组 只 是 一 个 视图 ， 则 原始 数组 将 会 和 人 
改 : 


In [161]: arr = randn(3, 5) 


In [162]: arr 


Out[162]: 

array([[-0.3318, -1.4711, 0.8705, -0.0847, -1.1329], 
[-1.0111, -0.3436, 2.1714, 0.1234, -0.0189], 
[ 0.1773, 0.7424, 0.8548, 1.038 , -0.329 ]]) 


In [163]: arr[:, 0 
place 


[mm | 


.Sort() # Sort first column values in- 


In [164]: arr 


Out[164]: 

array([[-1.0111, -1.4711, 0.8705, -0.0847, -1.1329], 
[-0.3318, -0.3436, 2.1714, 0.1234, -0.0189], 
[ 0.1773, 0.7424, 0.8548, 1.038 , -0.329 ]]) 


相反，numpy.sort 会 为 原 数组 创建 一 个 已 排序 
副本 。 它 所 接受 的 参数 (比如 kind， 稍 后 介绍 ) 跟 
ndarray.sort 一 样 : 


In [165]: arr = randn(5) 


In [166]: arr 
Out[166]: array([-1.1181, -0.2415, -2.0051, 0.7379, 
-1.0614]) 


In [167]: np.sort(arr) 
Out[167]: array([-2.0051, -1.1181, -1.0614, -0.2415, 
0.7379]) 


In [168]: arr 
Out[168]: array([-1.1181, -0.2415, -2.0051, 0.7379, 
-1.0614]) 


这 两 个 排序 方法 都 可 以 接受 一 个 axis 参 数 ， 以 
便 泊 指定 轴 辐 对 各 块 数据 进行 单独 排序 


In [169]: arr = randn(3, 5) 


In [170]: arr 

Out[170] : 

array([[ 0.5955, -0.2682, 1.3389, -0.1872, 0.9111], 
[-0.3215, 1.0054, -0.5168, 1.1925, -0.1989], 

0.3969, -1.7638, 0.6071, -0.2222, -0.2171]]) 


mm 


In [171]: arr.sort(axis=1) 


In [172]: arr 


Out[172] : 
array([[-0.2682, -0.1872, 0.5955, 0.9111, 1.3389], 
[-0.5168, -0.3215, -0.1989, 1.0054, 1.1925], 


| 


-1.7638，-0.2222，-0.2171， 0.3969, 09.6071]]) 


你 可 能 注意 到 了 ， 这 两 个 排序 方法 都 不 可 以 
被 设置 为 降序 。 其 实 这 也 无 所 谓 ， 因 为 数组 切片 
会 产生 视图 〈 也 就 是 说 ， 不 会 产生 副本 ， 也 不 需 
要 任何 其 他 的 计算 工作 ) 。 许 多 Python 用 户 都 很 
熟悉 一 个 有 关 列 表 了 的 小 技巧 : values[::-1 可 以 返回 
一 个 有 反 序 的 列表 。 对 ndarray 也 是 如 此 : 


In [173]: arr[:, ::-1] 

Out[173]: 

array([[ 1.3389, 0.9111, 0.5955, -0.1872, -0.2682], 
[ 1.1925, 1.0054, -0.1989, -0.3215, -0.5168], 
[ 0.6071, 0.3969, -0.2171, -0.2222, -1.,7638]]) 


间接 排序 : argsort 和 ]lexsort 


在 数据 分 析 工 作 中 ， 常 常 需要 根据 一 个 或 多 
个 键 对 数据 集 进行 排序 。 例 如 ， 一 个 有 关 学 生 信 
忌 的 数据 表 可 能 需要 以 姓 和 名 进行 排序 ( 先 姓 后 
和 名) 。 这 就 是 间接 排序 的 一 个 例子 ， 如 采 你 阅读 
过 有 关 pandas 的 革 广 ， 那 就 已 经 见 过 不 少 高 级 例子 
了 。 给 定 一 个 或 多 个 键 ， 你 驶 可 以 得 到 一 个 由 整 
数组 成 的 索引 数组 《我 亲切 地 称 之 为 索引 器 ) ， 
其 中 的 索引 值 说 明了 数据 在 新 顺序 下 的 位 置 。 
argsort 和 numpyjlexsort 殉 是 实现 该 功能 的 两 个 主要 
方法 。 下 面 是 一 个 条 单 的 例子 : 


In [174]: values = np.array([5, 0, 1, 3, 2]) 


In [175]: indexer = values.argsort() 


厚 : 


对 


In [176]: indexer 
Out[176]: array([1, 2, 4, 3, 0]) 


In [177]: values[indexer] 
Out[177]: array([0，1，2，3，5]) 


下 面 这 段 代码 根据 数组 的 第 一 行 对 其 进行 排 


In [178]: arr = randn(3, 5) 
In [179]: arr[0] = values 


In [180]: arr 

Out[180] : 

array([[ 5. 5 元 。 几 : ee je 2 ]， 
[-0.3636, -0.1378, 2.1777, -0.4728, 0.8356], 
[-0.2089, 0.2316, 0.728 ,， -1.3918, 1.9956]]) 


In [181]: arr[:, arr[0].argsort()] 

Out[181] : 

array([[ 0. a 5 2 2 -54 ], 
[-0.1378, 2.1777, 0.8356, -0.4728, -0.3636], 
[ 0.2316, 0.728 , 1.9956, -1.3918, -0.2089]]) 


lexsort 跟 argsort 差 不 多 ， 只 不 过 它 可 以 一 次 性 


多 个 键 数组 执行 间接 排序 (字典 序 ) 。 假 设 我 


们 想 对 一 些 以 姓 和 名 标识 的 数据 进行 排序 : 


In [182]: first_name = np.array(['Bob', 'Jane', 'Steve', 
'Bill', "Barbara ']) 


In [183]: last_name = np.array(['Jones'，'Arnold'，'Arnold '， 
'Jones', 'Walters ' ] ) 


In [184]: sorter = np.lexsort((first_name, last_name)) 
In [185]: zip(last_name[sorter], first_name[sorter]) 


Out[185] : 
[('Arnold', 'Jane'), 


('Arnold', 'Steve'), 
('Jones', 'Bill'), 
('Jones', 'Bob'), 
('Walters', 'Barbara')] 


由 开始 使 用 lexsort 的 时 候 可 能 会 比较 容易 头 
党 ， 这 是 因为 键 的 应 用 顺序 是 从 最 后 一 个 传 入 的 
算 起 的 。 不 难看 出 ，]last_name 是 先 于 first_name 侯 
应 用 的 。 


注意 : Series 和 DataFrame 的 sort _ index 以 及 
Series 的 order 方 法 束 是 通过 这 些 函 数 的 变 体 (它们 
还 必须 考虑 缺失 值 ) 实现 的 。 


其 他 排序 算法 


稳定 的 (stable) 排序 算法 会 保持 等 价 元 素 的 
相对 位 置 。 对 a 位 置 具有 实际 意义 的 那些 间 
接 排 序 而 言 ， 这 一 点 非常 重要 : 


In [186]: values = np.array(['2:first', '2:second', 
'1:first', '1:second', '1:third']) 


In [187]: key = np.array([2, 2, 1, 1, 1]) 
In [188]: indexer = key.argsort(kind='mergesort') 


In [189]: indexer 
Out[189]: array([2, 3, 4, 0, 1]) 


In [190]: values.take(indexer) 
Out[190]: 
array(['1:first', '1i:second', '1:third', '2:first', 


"2:Second ' ]， 
dtype= ' |1S8 ' ) 


mergesort (合并 排序 ) 是 唯一 的 稳定 排序 让 
”2， 它 保证 有 OA log n) 的 性 能 (空间 复杂 度 ) ， 但 
是 其 平均 性 能 比 默认 的 quicksort (快速 排序 ) 要 
差 。 表 12-3 列 出 了 可 用 的 排序 算法 及 其 相关 的 性 
能 指标 。 大 部 分 用 户 完全 不 需要 知道 这 些 东 西 ， 
但 了 解 一 下 总 是 好 的 。 


表 12-3: 数组 排序 算法 


kind 速度 ”稳定 性 工作 空间 最 坏 的 情况 
'quicksort' 1 否 0 O(n’) 
Imergesort' 2 是 n/2 O(n log n) 
'heapsort' 3 合 0 O(n log n) 


去 洁 : 到 编写 本 书 时 为 止 ，Python 对 和 象 
(dtype=object) 数组 可 用 的 排序 算法 只 
quicksort。 也 吏 是 说 ， 在 处 理 Python 对 象 时 如 采 需 
要 用 到 稳定 排序 ， 那 瓯 得 目 己 想 办 法 了 。 


numpysearchsorted: 在 有 序数 组 中 查找 元 


局 


searchsorted 是 一 个 在 有 序数 组 上 执行 二 分 碍 
找 的 数组 方法 ， 只 要 将 值 插 入 到 它 返 回 的 那个 位 
置 就 能 维持 数组 的 有 友 性 : 


In [191]: arr = np.array([0, 1, 7, 12, 15]) 


In [192]: arr.searchsorted(9) 
Out[192]: 3 


你 可 能 已 经 想到 了 ， 传 入 一 组 值 束 能 得 到 一 
组 索引 : 


In [193]: arr.searchsorted([0, 8, 11, 16]) 
Out[193]: array([0, 3, 3, 5]) 


从 上 面 的 结果 中 可 以 看 出 ， 对 于 元 素 0， 
searchsorted 会 运 回 0。 这 是 因为 其 默认 行为 是 返回 
相等 值 组 的 左 侧 索 引 : 


In [194]: arr = np.array([0, 0, 0, 1, 1, 1, 1]) 


In [195]: arr.searchsorted([0, 1]) 
Out[195]: array([0, 3]) 


In [196]: arr.searchsorted([0, 1], side='right') 
Out[196]: array([3, 7]) 


再 来 看 searchsorted 有 的 男 一 个 用 法 ， 假 设 我 们 
有 一 个 数据 数组 (其 中 的 值 在 0 到 10000 之 间 ) ， 
还 有 一 个 表示 “ 面 元 边界 ”的 数组 ， 我 们 布 望 用 它 
将 数据 数组 拆 分 开 : 
In [197]: data = np.floor(np.random.uniform(0, 10000, 
size=50)) 
In [198]: bins = np.array([0, 100, 1000, 5000, 10000]) 


In [199]: data 
Out[199]: 
array([ 8304., 4181 ,， 9352 , ， 49097 ,， 


3250 .， 8546 .， 2673 .， 6152 .， 

2774.， 5130., 9553.， 4997， 
1794.， 9688 .， 426 .， 1612 .， 

651. 8653.， 1695 .， 4764， 
1052 .， 4836 ,， 8020.， 3479 .， 

1513 . ， 5872 .， 992 .， 7656 . 
4764.， 5383 .， 2319 .， 4280.， 

4150.， 8601.， 946 .， 9904. 
7286.， 9969 .， 6032.， 4574.， 

8480 .， 4298.， 2708.， 7358. 
6439 .， 7916 .， 3899 ,， 9182 .， 

871.， 7973 . ]) 


然后 ， 为 了 得 到 各 数据 点 所 属 区 间 的 编号 
(其 中 1 表示 面 元 [0,100)) ， 我 们 可 以 直接 使 用 


searchsorted: 


In [200]: labels = bins.searchsorted(data) 


In [201]: labels 
Out[201] : 
array([4, 3, 4, 3, 3, 4, 3, 4, 3, 4, 4, 3, 3, 4, 2, 3, 2, 4, 
3, 3, 3, 3, 4, 

3, 3, 4, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 
3, 3, 4, 4, 4, 

3, 4, 2, 4]) 


通过 pandas 的 groupby 使 用 该 结 未 即 可 非 利 轻 
松 地 对 原 数据 集 进 行 拆 分 : 
In [202]: Series(data).groupby(labels).mean() 
Out[202]: 
2 649 .333333 


3 3411.521739 
4 7935.041667 


注意 ， 其 实 Numpy 的 digitize 画 数 也 可 用 于 计 
算 这 种 面 元 编号 : 


In [203]: np.digitize(data, bins) 


Out [203]: 
arravtTl4..9 3 3 填写 3 
3, 3, 3, 3, 4, 

3, 3, 4, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 
3, 3, 4, 4, 4, 

3) 4, 了 4] ) 


NumPy 的 matrix 关 


跟 其 他 面向 矩阵 运算 和 线性 代数 的 语言 相 比 
(如 MAITLAB、GAUSS 等 ) ，NumPy 的 线性 代数 
语法 往往 比较 繁琐 。 其 中 一 个 原因 是 ， 和 抢 阵 操作 
需要 用 到 numpy.dot。 有 再 加 上 NumPy 的 索引 语义 也 
不 同 ， 所 以 有 时 不 那么 容易 将 代码 移植 到 Python 
计生 6。 从 二 维 数 组 中 选取 一 行 (比如 X[1,:]) 或 一 
列 (如 X[:,1]) 将 会 产生 一 个 一 维 数组 ， 而 在 


MATLAB 中 则 是 二 维 数 组 。 


In [204]: X= np.array([[ 8.82768214, 


-1.14276475, 2.04411587] ， 
6.83909108， 2.08293758] ， 
5.01690521, 0.79573241]， 
0.79573241, 6.24095859]]) 


In [205]: X[:，0] # 一 维 的 


[ 3.82222409, 
[-1.14276475, 


[ 2.04411587, 


3.82222409 ， 
6.75272284, 
0.83909108, 


2.08293758, 


out[205]: array([ 8.8277, 3.8222, -1.1428, 2.0441]) 


In [206]: y = X[:，:1] # 切片 操作 可 产生 二 维 结果 


In [207]: X 
Out[207]: 


array([[ 8.8277, 3.8222, -1.1428, 2.0441], 
[ 3.8222, 6.7527, 0.8391, 2.0829], 
[-1.1428, 0.8391, 5.0169, 0.7957], 
[ 2.0441, 2.0829, 0.7957, 6.241 ]]) 


In [208]: y 
Out [208] : 
array([[ 8.8277], 


[ 3.8222], 
[-1.1428] ， 
[ 2.0441]]) 


在 这 个 问题 中 ， 积 y "xy 会 被 表达 成 下 面 这 个 
下， 


In [209]: np.dot(y.T, np.dot(x, y)) 
Out[209]: array([[ 1195.468]]) 


为 了 不 用 编写 大 量 的 矩阵 运算 代码 ，NumPy 
提供 了 一 个 matrix 类 ， 其 索引 行为 更 像 
MATLAB: 单行 或 列 会 以 二 维 形式 运 回 ， 晶 使 用 
星 号 (*) 的 乘法 直接 就 是 官 阵 乘法 。 上 面 那 些 运 
numpy.matrix 来 编写 的 话 ， 应 该 是 下 面 这 个 


In [210]: Xm = np.matrix(X) 
In [211]: ym = Xm[:, 0] 


In [212]: Xxm 

Out[212] : 

matrix([[ 8.8277, 3.8222，-1.1428， 2.0441], 
[ 3.8222, 6.7527, 0.8391, 2.0829], 
[-1.1428, 0.8391, 5.0169, 0.7957], 
[ 2.0441, 2.0829, 0.7957, 6.241 ]]) 


In [213]: ym 


Out[213]: 

matrix([[ 8.8277], 
[ 3.8222], 
[-1.1428], 
[ 2.0441]]) 


In [214]: ym.T * Xm * ym 
Out[214]: matrix([[ 1195.468]]) 


matrix 下 有 一 个 特殊 的 属性 I[， 其 功能 是 返回 
答 阵 的 敢 : 


In [215]: Xm.I * X 
Out[215]: 
matrix([[ 1., 


1 
©OOPO 

1 
OPOO 


[ 
[ 
[ 


©O©OoO 


我 不 建议 用 numpy.matrix 蕉 代 正 规 的 
ndarray， 因 为 它们 的 应 用 面 较 罕 。 对 于 个 别 市 有 
大 量 线性 代数 运算 的 函数 ， 可 以 将 函数 参数 转换 
为 matrix 类 型 ， 然 后 在 返回 之 前 用 np.asarray (不 
会 复制 任何 数据 ) 将 其 转换 回 正 规 的 ndarray 。 


译注 6: 原文 有 歧义 ， 根据 上 下 文 的 意思 ， 应 该 是 
说 不 容易 把 其 他 语言 的 代码 移植 过 来 。 


局 级 数组 输入 输出 


我 在 第 4 章 中 讲 过 ，np.save 和 np.load 可 用 于 读 
写 磁 一 上 以 二 进 制 格式 存储 的 数组 。 其 实 还 有 一 
些 工 具 可 用 于 更 为 复杂 的 场景 。 尤 其 是 内 和 存 映像 
(memory map) ， 它 使 你 能 处 理 在 内 存 中 放 不 下 
的 数据 集 。 


内 存 映像 文件 


内 存 映像 文件 是 一 种 将 人 磁盘 上 的 非常 大 的 二 
进 制 数据 文件 当做 内 存 中 的 数组 进行 处 理 的 方 
式 。NumPy 实 现 了 一 个 类 似 于 ndarray 的 memmap 
对 和 象 ， 它 人 允许 将 大 文件 分 成 小 段 进 行 读 写 ， 而 不 
和 是 一 次 性 将 整个 效 组 谈 入 内 人 存 。memmap 也 拥有 
跟 普 通 数组 一 样 的 方法 ， 因 此 ， 基 本 上 只 要 是 能 
用 于 ndarray 的 算法 束 也 能 用 于 memmap 。 


使 用 男 数 np.memmap 并 传 入 一 个 文件 路 径 、 
数据 类 型 、 形 状 以 及 文件 模式 ， 即 可 创建 一 个 新 
的 memmap: 
In [216]: mmap = np.memmap('mymmap', dtype="'float64"', 
mode='w+', shape=(10000, 10000)) 


In [217]: mmap 
Out[217]: 


memmap([[ 0., 0., 0., ..., 0.，0.，0,|， 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 9 0 0., ..., 0 0 0.]]) 


对 memmap 切 上 请 将 会 返回 了 磁盘 上 的 数据 的 视 
: 


In [218]: section = mmap[:5] 


如 有 果 将 数据 赋值 给 这 些 视图 : 数据 会 匈 被 组 
存在 内 存 中 (就 像 是 Python 的 文件 对 象 ;， 调 用 
flush 即 可 将 其 写 入 似 表 。 


In [219]: section[:] = np.random.randn(5, 10000) 
In [220]: mmap.flush() 


In [221]: mmap 


Out[221]: 
memmap([[-0.1614, -0.1768, 0.422 ,，..., -0.2195, -0.1256, 
-0.4012], 
[ 0.4898, -2.2219, -0.7684, ..., -2.3517, -1.0782, 
1.3208] ， 
[-0.6875, 1.6901, -0.7444, ..., -1.4218, -0.0509, 
1.2224] ， 
[ 6， ， 0. 0 0 
0. ， 0. ], 
[ 6， ， 0. 0 0 
0. ， 0. ], 
[ 0. ， 0. 0 0 
0. ) 0. ]] ) 


In [222]: del mmap 


只 要 菏 个 内 存 映像 超出 了 作用 域 ， 它 整 会 个 
坪 圾 回收 屁 回 收 ， 之 前 对 其 所 做 的 任何 修改 都 会 
羽 写 入 和 磁盘。 当 打 开 一 个 已 经 存在 的 内 存 映 像 
时 ， 仍 然 需要 指明 数据 类 型 和 形状 ， 因 为 磁 列 上 
的 那个 文件 只 是 一 块 二 进 制 数 据 而 已 ， 没 有 任何 


元 数据 : 


In [223]: mmap = np.memmap('mymmap', 


(10000, 10000)) 


In [224]: mmap 
Out[224]: 


memmap([[-0.1614, -0.1768, 0.422 ，.. 


-0.4012], 


[ 0.4898, -2.2219, -0.7684,.. 


1.3208] ， 
[-0.6875, 1.6901, -0.7444, .. 
1.2224] ， 
[ 90，， 0. ， 0. 
0. ] ， 
[ 9，， 0. ， 0， 
9. ], 
0. ， 0. ， 9， 


[ 
0. ]]) 


dtype='float64', shape= 


., -0.2195, -0.1256, 
.，-2.3517，-1.0782， 


,1 -1.4218, -0.0509, 


， 0. 
， 0. 


， 0. 


由 于 内 存 映像 其 实 束 古 一 个 存放 在 亿 副 上 的 


ndarray， 上 所 以 完全 可 以 使 用 前 面 介 


dtype ° 


HDF5 及 其 他 数组 存储 方式 


绍 的 结构 化 


PyTables 和 h5py 这 两 个 Python 项 目 可 以 将 
NumPy 的 数组 数据 存储 为 高 效 且 可 压缩 的 HDF5 格 
式 (HDF 意 思 是 “层次 化 数据 格式 ”) 。 你 可 以 安 
全 地 将 好 几 百 GB 甚至 TB 的 数据 存储 为 HDF5 格 
式 。 很 遗憾 ， 这 些 库 的 用 法 超出 了 本 书 的 范围 。 


PyTables 提 供 了 一 些 用 于 结构 化 数组 的 局 级 
查询 蕊 能 ， 而 且 还 能 添加 列 索 引 以 捉 升 得 询 速 
人 这 跟头 系 型 效 据 库 所 近 供 的 表 索 引 功 能 非 和 芝 


性 能 建议 


使 用 NumPy 的 代码 的 性 能 一 般 痢 很 不 锯 ， 
为 数组 运算 一 般 都 比 纯 Python 循 环 快 得 多 。 下 面 
大 致 列 出 了 一 些 需 要 注意 的 事项 : 


-将 Python 循环 和 条 件 逻 每 较 换 为 数组 运算 和 


布尔 数组 运算 
-尽量 使 用 广播 。 
-避免 复 制 数 据 ， 尽 量 使 用 数组 视图 ( 即 切 


-利用 ufunc 及 其 各 种 方法 。 


如 有 果 单 用 NumPy 无 论 如 何 都 达 不 到 所 需 的 性 

能 指标 ， 就 可 以 考虑 一 下 用 C、Fortran 或 Cython 

(等 下 会 稍微 介绍 一 下 ) 来 编写 代码 。 我 目 己 在 
工作 中 经 常会 用 到 Cython (http://cython.org) ， 

ee 


连续 内 存 的 重要 性 


虽然 这 个 话题 有 点 超出 本 书 的 范围 ， 但 还 是 

要 提 一 下 ， 因 为 在 某 些 应 用 场景 中 ， 数 组 的 内 存 
布局 可 以 对 计算 速度 造成 极 大 的 影响 。 这 和 是 因为 
性 能 才 别 在 一 定 程度 上 跟 CPU 的 高 速 绥 存 

(cache) 体系 有 关 。 运 算 过 程 中 访问 连续 内 存 块 

(例如 ， 对 以 C 顺 序 存储 的 数组 的 行 求 和 ) 一 般 
是 最 快 的 ， 因 为 内 存 子 系统 会 将 适当 的 内 存 块 组 
存 到 超 高 速 的 L1 或 L2CPU Cache 中 计生 7。 此 外 ， 
NumPy 的 C 语 言 基础 代码 ( 某 些 ) 对 连续 存储 的 
情况 进行 了 优化 处 理 ， 这 样 束 能 避 倪 一 些 跨越 式 
的 内 存 访 问 。 


一 个 数组 的 内 存 布局 是 连续 的 ， 就 是 说 元 到 
是 以 它们 在 数组 中 出 现 的 顺序 〈 即 Fortran 型 ( 列 
优先 ) 或 C 型 〈 行 优先 ) ) 存储 在 内 存 中 的 。 默 
认 情 况 下 ，NumPy 效 组 是 以 C 型 连续 的 方式 创建 
的 。 列 优先 的 数组 〈 比 如 C 型 连续 数组 的 转 置 ) 
也 人 航 称 为 Fortran 型 连续 。 通 过 ndarray 的 flags 属 性 
即 可 得 看 这 些 信息 : 


In [227]: arr_c = np.ones((1000, 1000), order='C') 


In [228]: arr_f = np.ones((1000, 1000), order="'F') 


In [229]: arr_c.flags In [230]: arr_f.flags 
Out[229]: Out[230]: 
C_CONTIGUOUS : True C_CONTIGUOUS : False 
F_CONTIGUOUS : False F_CONTIGUOUS : True 


OWNDATA : True OWNDATA : True 
WRITEABLE : True WRITEABLE : True 


ALIGNED : True ALIGNED : True 
UPDATEIFCOPY : False UPDATEIFCOPY : False 


In [231]: arr_f.flags.f_contiguous 
Out[231]: True 


在 这 个 例子 中 ， 对 两 个 数组 的 行进 行 求 和 计 
算 ， 理 论 上 说 ，arr_c 会 比 arr f 快 ， 因 为 arr_c 的 行 
在 内 存 中 是 连续 的 。 我 们 可 以 在 IPython 中 
用 %timeit 来 硝 认 一 下 : 


In [232]: %timeit arr_c.sum(1) 
1000 loops, best of 3: 1.33 ms per loop 


In [233]: %timeit arr_f.sum(1) 
100 loops, best of 3: 8.75 ms per loop 


如 采 想 从 NumPy 中 提升 性 能 ， 这 里 束 应 该 是 
下 手 的 地 方 。 如 果 数 组 的 内 存 顺 序 不 符合 你 的 要 
求 ， 使 用 copy 并 传 入 'C' 或 F' 即 可 解决 该 问题 : 


In [234]: arr_f.copy('C').flags 
Out[2341]: 

C_CONTIGUOUS : True 

F_CONTIGUOUS : False 

OWNDATA : True 

WRITEABLE : True 

ALIGNED : True 

UPDATEIFCOPY : False 


注意 ， 在 构造 数组 的 视图 时 ， 其 结果 不 一 定 
是 连续 的 : 


In [235]: arr_c[:50].flags.contiguous In [236]: arr_c[:, 
:50].flags 


Out[235]: True Out[236] : 
C_CONTIGUOUS : 


False 
F_CONTIGUOUS : 
False 
OWNDATA : False 
WRITEABLE : True 
ALIGNED : True 
UPDATEIFCOPY : 
False 


其 他 加 速 手段 : Cython 、f2py、C 


近年 来 ，Cython 项 目 (http://cython.org) 已 
经 受到 了 许多 Python 程序 员 的 认可 ， 用 它 实 现 的 
代码 运行 速度 很 快 (可 能 需要 与 C 或 C++ 库 交互 ， 
但 无 需 编写 纯粹 的 C 代 码 ) 。 你 可 以 将 Cython 看 
成 是 市 有 前 仿 类 型 并 能 髓 入 C 玉 数 的 Python。 下 面 
这 个 简单 时 Cython 函 数 用 于 对 一 个 一 维 数组 的 所 
有 元 聚 求 和 : 


from numpy cimport ndarray, float64 t 
def sum elements(ndarray[float64 t] arr): 
cdef Py_ssize t i, n = len(arr) 
cdef float64 t result = 0 


for i in range(n): 
result += arr[il] 


return result 


Cython 处 理 这 上 段 代 码 时 ， 先 将 其 翻 详 为 C 代 
人 码 ， 然 后 编 详 这些 C 代 码 并 创建 一 个 Python 扩 展 。 


Cython 是 一 种 诱 人 的 高 性 能 计算 方式 ， 因 为 编写 
Cython 代 码 只 比 编写 纯 Python 代 码 多 花 一 点 时 间 
而 已 ， 而 且 还 能 跟 NumPy 紧 密 结 合 。 一 般 的 工作 
流程 是 : 得 到 能 在 Python 中 运行 的 算法 ， 然 后 再 
将 其 翻译 为 Cython (只 需 添 加 类 型 定义 并 完成 一 
些 其 他 必要 的 工作 即 可 ) 。 更 多 信息 请 参考 该 项 
目的 文档 。 


其 他 有 关 NumPy 的 高 性 能 代码 编写 手段 还 有 
f2py (FORTRAN 77 和 90 的 包装 器 生成 器 ) 以 及 
利用 纯 C 语 言 编写 Python 扩展 。 


详 广 7: 这 里 主要 考虑 的 是 预 谈 机 制 以 及 缓存 块 失 
效率 。 由 于 这 个 存储 层次 是 纯 人 硬件 实现 的 ， 谁 的 
程序 痢 控 制 不 了 ， 所 以 数据 最 好 连续 和 存储。 


附录 A Python 语言 精 要 


知识 是 一 座 至 库 ， 而 实践 融 定 开局 这 座 琅 库 
的 钥 陡 。 


一 一 IIhomas Fuller 


人 们 常常 问 我 要 有 天 学 习 Python 数 据 处 理 方 
面 的 优质 资源 。 里 然 市 面 上 有 许多 非常 不 错 的 讲 
解 Python 语 言 的 图 书 ， 但 我 在 推荐 的 时 候 经 沼 还 
是 会 狗 驳 不 决 ， 因 为 它们 都 是 针对 普通 该 者 的 ， 
没有 为 那些 只 想 “ 加 载 点 儿 数 据 ， 做 点 计算 ， 再 男 
点 儿 图 ”的 该 着 做 专门 的 裁 荔 。 其 实 有 几 本 书 确 实 
是 天 于 Python 科 学 计算 编程 的 ， 但 它们 是 专 为 数 
值 计 算 和 工程 应 用 而 设计 的 : 解 微 分 方程 、 计 算 
积分 、 做 蒙 符 卡 罗 檬 拟 ， 以 及 其 他 各 种 数学 方面 
的 主题 ， 但 束 是 没有 数据 分 析 和 统计 方面 有 的。 由 
于 本 书 的 目的 是 让 大 家 成 为 Python 数据 处 理 方 面 
的 束 手 ， 所 以 我 认为 有 必要 花 点 时 间 从 结构 化 和 
非 结 构 化 数据 处 理 的 角度 重点 介绍 一 些 有 关 
Python 和 内置 数据 结构 和 库 的 最 重要 的 功能 。 我 将 
只 要 对 本 书 的 学 习 够 用 
吏 行 。 


本 附 孙 并 没有 打算 成 为 Python 语言 的 详尽 指 

南 ， 只 会 对 书 中 反复 用 到 的 那些 功能 做 一 个 基本 
的 概述 。 对 于 Python 新 手 而 言 ， 我 建议 在 读 完 
附录 后 再 看 看 Python 的 官方 教程 

(http://docs.python.org) ， 最 好 能 再 读 一 两 本 有 
天 Python 通 用 编程 方面 的 优质 图 书 。 以 我 的 观点 
来 看 ， 如 果 只 需要 用 Python 进行 高 效 的 数据 分 析 
工作 ， 根 本 吏 没 必要 非得 成 为 通用 软件 编程 方面 
的 专家 不 可 。 我 强烈 建议 你 用 IPython 实 验 所 有 的 
代码 示例 ， 并 查看 各 种 类 型 、 芳 数 以 及 廊 法 的 文 
档 。 注 意 ， 这 些 例子 中 所 用 到 的 一 些 代 码 暂 时 还 
没 必 要 解释 得 那么 详细 。 


本 书 主要 关注 的 是 能 够 处 理 大 数据 集 的 高 性 
能 效 组 计算 工具 。 为 了 使 用 这 些 工 具 ， 你 币 币 得 
先 把 那些 乱 七 八 粳 的 数据 处 理 成 漂 腕 点 的 结构 化 
形式 。 好 在 Python 是 一 种 最 易 上 手 的 数据 整形 语 
言 。 你 的 Python 语言 能 力 越 强 ， 数 据 分 析 的 准备 
工作 束 越 倘 单 。 


python 解释 器 


Python 是 一 种 解释 型 语言 。Python 解 释 器 是 遂 
过 “一 次 执行 一 条 语句 ”的 方式 运行 程序 的 。 标 准 
的 交互 式 Python 解 释 硕 可 以 在 命令 行 上 通过 python 
命令 司 动 : 


$ python 

Python 2.7.2 (default, Oct 4 2011, 20:06:09) 

[GCC 4.6.1] on linux2 

Type "help", "copyright", "credits" or "license" for more 
information. 

>>> a = 5 

>>> print a 

5 


上 面 的 ">>>" 和 是 提示 符 ， 你 可 以 在 那里 输入 表 
达 式 。 要 退出 python 解释 絮 并 返回 命令 提示 符 ， 
输入 exit0 或 控 下 Ctrl-D 即 可 。 


运行 Python 程序 的 方式 很 简单 ， 只 需 调用 
python 并 将 一 个 .py 文件 作为 其 第 一 个 参数 即 可 。 
假设 我 们 已 经 创建 了 一 个 hello_world.py， 其 内 容 
如 下 : 


print ‘Hello world' 
只 需 在 终端 上 输入 如 下 命令 即 可 运行 : 


$ python hello_world.py 
Hello world 


虽然 许多 Python 程 序 员 用 这 种 方式 执行 他 们 
的 所 有 Python 代码 ， 但 Python 科学 计算 程序 员 则 更 
趋 回 于 使 用 IPython (一 种 加 强 的 交互 式 Python 解 
释 器 ) 。 第 3 章 专门 介绍 了 IPython 系 统 。 通 过 使 
用 %run 命 令 ，IPython 会 在 同一 个 进程 中 执行 指定 


文件 中 的 代码 。 因 此 ， 在 这 些 代 码 执行 完毕 之 
后 ， 你 就 可 以 通过 交互 的 方式 研究 其 结 末了 。 


$ 1ipython 

Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 
15:17:51) 

Type "copyright", "credits" or "license" for more 
information. 


IPython 0.12 -- An enhanced Interactive Python. 
? Introduction and overview of IPython's features. 


1 
V 


%quickref -> Quick reference. 

help -> Python's own help system. 

object? > Details about 'object', use 'object??' for extra 
details. 


In [1]: %run hello world.py 
Hello world 


In [2]: 


默认 的 IPython 近 示人 符 玉 用 的 是 一 种 编写 的 内 
格 (如 In [2]:) ， 而 不 是 标准 的 ">>>" 提 示 符 。 


基础 知识 
语言 语义 
Python 语言 的 设计 特点 是 重 视 可 该 性 、 商 污 


。 有些 人 长 至 将 它 看 做 * 可 执行 的 伪 
码 ”。 


Python 是 通过 空 日 符 〈 制 表 符 或 空格 ) 来 组 
织 代码 的 ， 不 像 其 他 语言 (如 R、C++、Java、 
Perl 等 ) 用 的 是 大 括号 。 以 for 循 环 为 例 ， 要 实现 前 
面 说 的 那个 快速 排序 算法 : 

for x in array: 
if x < pivot: 
ee 


else: 
greater .append(x) 


冒号 表示 一 段 缩 进 代 码 块 的 开始 ， 其 后 的 所 
有 代码 都 必须 缩 进 相同 的 量 ， 直 到 代码 块 结 束 为 
" 在 别 的 语言 中 ， 你 可 能 会 看 到 下 面 这 样 的 东 


for x in array { 
if x < pivot { 
less.append(x) 
} else 
greater .append(x) 


使 用 空 日 符 的 主要 好 处 是 ， 它 能 使 大 部 分 
Python 代码 在 外 观 上 看 起 来 过 不 多 。 也 驶 生 襄 ， 
当 你 阅读 某 段 不 是 自己 编写 的 (或 一 年 前 匆忙 编 
写 的 ) 代码 时 不 怎么 容易 出 现 * 认 知 失 调 ?”。 在 那 
些 空 白 符 无 实际 意义 的 语言 中 ， 你 可 能 会 发 现 一 
些 格 式 不 统一 的 代码 ， 比 如 : 


for x in array 
if x < pivot 
less.append(x) 
} 
else 
{ 
greater .append(x) 


} 


无 论 对 它 是 爱 是 恨 ， 反 正 有 意义 的 空 日 从 整 
是 Python 程 序 员 的 生活 现实 。 再 说 了 ， 以 我 的 经 
验 来 看 ， 它 能 使 Python 代 码 具 有 更 高 的 可 读 性 
(至 少 比 我 用 过 其 他 语言 要 高 ) 。 里 然 第 一 服 看 
上 去 会 咒 得 比较 火星 ， 但 我 相信 不 用 多 人 久 你 融会 
吾 欢 上 它 的 。 


注意 : 我 强烈 建议 用 4 个 空格 作为 默认 缩 进 
量 ， 这 样 ， 你 的 编辑 天 融会 将 制 表 符 敬 换 为 4 个 经 
属 。 许 多 文本 编辑 郁 都 有 一 个 这 样 的 设置 项 。 有 
些 人 哥 欢 用 制 表 符 或 其 他 数量 的 空格 ， 但 用 2 个 至 
格 的 情况 非 党 少 抑 。4 个 空格 其 实 吏 是 一 种 标准 ， 
绝 大 部 分 Python 程序 员 都 这 么 用 。 所 以 我 建议 : 
除非 有 特殊 的 原因 ， 人 否则 吏 用 4 个 空格 吧 。 


到 目前 为 止 ， 你 可 以 看 到 ，Python 语 句 还 能 
不 以 分 号 结束 。 不 过 分 号 还 是 可 以 用 的 ， 比 如 在 


一 行 上 分 隔 多 条 语句 ; 


在 一 行 上 放 管 多 条 语句 的 做 法 在 Python 中 一 
尽 不 推荐 的 ， 因 为 这 往往 会 使 代码 的 可 人 羔 性 变 


局 


髓 


”4 


Rt 


万 物 首 对 象 


Python 语言 的 一 个 重要 特点 吏 是 其 对 象 便 型 
的 一 致 性 。Python 解 释 着 中 的 任何 数值 、 字 人 符 
串 、 数 据 结 构 、 函 数 、 类 、 模 块 稚 部 每 在 它们 日 
己 的 “ 盒 于 ”里 ， 而 这 个 “盒子 ”也 吏 定 Python 对 象 。 
每 个 对 象 都 有 一 个 与 之 相关 的 类 型 〈 比 如 字符 串 
或 函数 ) 以 及 内 部 数据 。 在 实际 工作 当中 ， 这 使 
得 Python 语言 变 得 非常 灵活 ， 因 为 即使 是 函 数 也 
能 被 当做 其 他 对 象 那 样 处 理 。 


注 炎 


任何 前 级 为 井 号 (#) 的 文本 都 会 被 Python 解 
释 句 忽略 挥 。 这 通常 用 于 在 代码 中 深 加 注 释 。 有 
时 你 可 能 只 有 古 想 排除 不 运行 某 些 代码 块 而 不 想 删 
除 它 们 。 最 向 持 的 办 法 束 古 注释 挥 那 些 代码 : 
results = [|] 


# 暂时 保留 空 行 
# if len(line) == 0: 


# continue 
results.append(line.replace('foo', 'bar')) 


芳 数 调用 和 对 和 象 方法 调用 


画 数 的 调用 需要 用 到 圆 括号 以 及 0 个 或 多 个 参 
数 ， 此 外 还 可 以 将 返回 值 赋值 给 一 个 变量 : 


result = f(x, y, Zz) 
g() 
几乎 所 有 的 Python 对 象 痢 有 一 些 附属 画 数 
(也 束 是 方法 ，， 它 们 可 以 访问 该 对 象 的 内 部 数 
据 。 方 法 的 调用 是 这 样 写 的 : 
obj.some_method(x, y, 2Zz) 
函数 既 可 以 接受 位 置 参数 ， 也 可 以 接受 天 键 
子 参 类 
result = f(a, b, c, d=5, e='foo') 
稍 后 将 详细 介绍 这 个 内 容 。 
变量 和 按 引 用 传递 


在 Python 中 对 变量 央 值 时 ， 你 其 实 是 在 创建 
等 号 右 侧 对 象 的 一 个 引用 。 用 实际 的 例子 来 说 
吧 ， 看 看 下 面 这 个 整数 列表 ; 


Tn [2541T a = [1 2, 5 
假如 我 们 将 a 赋值 给 一 个 新 变量 b: 
In [242]: b = a 


在 某 些 语言 中 ， 该 赋值 过 程 将 会 导致 数据 
[12,3] 被 复制 。 而 在 Python 中 ，a 和 b 现 在 都 指向 同 
一 个 对 象 ， 即 原始 列表 [1,2,3] (如 图 A-1 所 示 ) 

你 可 以 自己 验证 一 下 :对 a 添加 一 个 元 素 ， 然 后 看 
看 b 的 情况 。 


In [243]: a.append(4) 


In [244]: b 
Out[244]: [1, 2, 3, 4] 


b 一 


图 A-1: 指 同 同一 个 对 象 的 两 个 引用 


理解 Python 引 用 的 语义 以 及 数据 复制 的 条 
件 、 方 式 、 原 因 等 知识 对 于 在 Python 中 处 理 大 数 
据 集 非常 重要 。 


注意 : 赋值 (assignment) 操作 也 叫做 绑 定 
(binding) ， 因 为 我 们 其 实 是 将 一 个 名 称 和 一 个 


对 象 乡 定 到 一 起 。 已 经 赋 过 值 的 变量 名 有 时 也 被 
称 为 已 绑 定 变量 (bound variable) 。 


当 你 将 对 象 以 参数 的 形式 传 入 函数 时 ， 其 实 
只 征 传 入 了 一 个 引用 而 已 ， 不 会 发 生 任何 复制 。 
因此 ，Python 锐 称 为 古 按 引用 传 还 的 ， 而 条 些 其 
他 的 语言 则 既 支 持 按 值 传递 创建 副本 ) 又 文 持 
按 引 用 传递 。 也 就 是 说 ，Python 函 数 可 以 修改 其 
参数 的 内 容 。 假 设 我 们 有 下 面 这 样 的 一 个 函数 : 


def append_element(some_ list, element): 
some_list.append(element) 


根据 刚才 所 说 的 ， 下 面 这 样 的 结果 应 该 是 在 
意料 之 中 的 : 


In [2]: data = [1, 2, 3] 


In [3]: append_ element(data, 4) 


In [4]: data 
Out[4]: [1i, 2, 3, 4] 


动态 引用 ， 强 类 型 
跟 许多 编译 型 语言 (如 Java 和 C++) 相反 ， 


Python 中 的 对 象 引 用 没有 与 之 关联 的 类 型 信息 。 
下 面 这 些 代码 不 会 有 什么 辣 题 : 


In [245]: a = 5 

In [246]: type(a) 
Out[246]: int 

In [247]: a = 'foo' 
In [248]: type(a) 
Out[248]: str 


变量 其 实 束 是 对 象 在 特定 命名 至 间 中 的 名 称 
而 已 。 对 象 的 类 型 信息 是 保存 在 它 目 己 内 部 的 。 
有 些 人 可 能 会 轻率 地 认为 Python 不 是 一 种 “类 型 化 
语言 "。 其实 不 是 这 样 的 。 看 看 下 面 这 个 例子 : 


in [249]: '5" + 5 


TypeError Traceback (most 
recent call last) 

<ipython-input-249-f9dbf5f0b234> in <module>() 
---->1'5'+5 

TypeError: cannot concatenate 'str' and 'int' objects 


在 有 些 语言 中 (比如 Visual Basic) ， 字 符 
串 '5' 可 能 会 被 隐 式 地 转换 为 整数 ， 于 是 束 会 得 到 
10。 而 在 男 一 些 语言 中 (比如 JavaScript) ， 整 数 5 
可 能 会 被 转换 为 字符 串 ， 于 是 束 会 得 到 '55'。 而 在 
这 一 点 上 ，Python 可 以 被 认为 是 一 种 强 类 型 语 
言 ， 也 了 吏 是 说 ， 所 有 对 象 都 有 一 个 特定 的 类 型 
(或 类 ) ， 隐 式 转 换 只 在 很 明显 的 情况 下 才 会 发 
生 ， 比 如 下 面 这样 : 


In [250]: a = 4.5 


In [251]: b = 2 


# 这 个 操作 是 字符 串 格式 化 ， 稍 后 介绍 
In [252]: print 'a is %s, b is %s' % (type(a), type(b)) 
a is <type 'float'>, b is <type "Int'> 


In [253]: a/b 
Out[253]: 2.25 


了 解 对 象 的 类 型 是 很 重要 的 。 要 想 编 写 能 够 
处 理 多 个 不 同类 型 输入 的 函数 束 必 须 了 解 有 天 类 
型 的 知识 。 通 过 isinstance 落 数 ， 你 可 以 检查 一 个 
对 象 是 否 是 某 个 特定 类 型 的 实例 : 


In [254]: a = 5 


In [255]: isinstance(a, int) 
Out[255]: True 


isinstance 9 以 接受 由 类 型 组 成 的 元 组 。 如 果 
想 检 查 某 个 对 象 的 类 型 是 否 属 于 元 组 中 所 指定 的 
hs 
In [256]: a = 5; b= 4.5 
In [257]: isinstance(a, (int, float)) 
Out[257]: True 


In [258]: isinstance(b, (int, float)) 
Out[258]: True 


属性 和 方法 
Python 中 的 对 象 通常 都 既 有 属性 (attribute， 


即 存储 在 该 对 象 “内 部 ”的 其 他 Python 对 象 ) 又 有 方 
法 (method， 与 该 对 象 有 关 的 能 够 访问 其 内 部 数 


据 的 函数 ) 
的 语法 进行 访问 : 


° 它们 都 能 


a. 


a. 


a. 


a. 


a. 


a. 


a. 


format 
index 
isalnum 
isalpha 
isdigit 
islower 


isspace 


In [1]: a= 'foo' 
In [2]: a.<Tab> 
a.capitalize 
a.strip 
a.center 
a.swapcase 
a.count 

a.title 
a.decode 
a.translate 
a.encode 
a.upper 
a.endswith 
a.Zfill 
a.expandtabs 
a.find 


>>> getattr(a, 


a. 


istitle 


EE 通 


] 寸 


几 


Ea) 


几 


过 obj.attribute_name 这 样 


.isupper 
,join 
.1just 
‘lower 
.lstrip 
.partiti 


.replace 
.rfind 


[ey 


几 


oo 


.rindex 
.rjust 
.rpartition 
.rsplit 
.rstrip 
.Split 


.Splitlines 
.Startswith 


属性 和 方法 还 可 以 利用 getattr 函 数 通过 名 称 进 
行 访问 : 


<function split> 


里 然 本 书 没 起 么 用 到 getatt 画 数 以 及 与 之 相关 
它们 还 是 很 实用 的 ， 
尤其 是 在 编写 通用 的 、 可 复 用 的 代码 时 。 


的 hasattr 和 setattr 国 数 ， 但 走 


'split"') 


“鸭子 "类 型 于 注 1 


一 般 来 说 ， 你 可 能 不 会 关心 对 象 的 类 型 ， 而 
只 是 想 知 站 它 到 廉 有 没有 某 些 方法 或 行为 。 比 如 
说 ， 只 要 一 个 对 象 实现 了 迭代 器 协议 (iterator 
protocol) 你 束 可 以 确认 它 古 可 送 代 的 ° 对 于 大 
部 分 对 象 而 言 ， 这 束 意 味 看 它 拥 有 一 个 _iter_ 魔 
术 方 法 。 当 然 ， 还 有 一 个 更 好 一 些 的 验证 办 法 ， 
即 芝 试 使 用 iter 函 效 : 
def isiterable(obj): 
try: 
iter (obj) 
return True 


except TypeError: # 不 可 迭代 
return False 


对 于 字符 串 以 及 大 部 分 Python 集合 类 型 ， 该 
国 数 会 馆 回 True: 


In [260]: isiterable('a string') In [261]: isiterable([1, 
2, 3]) 
Out[260]: True Out[261]: True 


In [262]: isiterable(5) 
Out[262]: False 


我 常常 在 编写 需要 处 理 多 类 型 输入 的 函数 乓 
用 到 这 个 功能 。 还 有 一 种 第 见 的 应 用 场景 编写 
可 以 接受 任何 序列 (列表 、 元 组 、ndarray) 或 达 
代 恬 的 函数 。 你 可 以 先 检查 对 象 是 不 是 列表 (或 
NumPy 数 组 ) ， 如 有 果 不 是 ， 束 将 其 转换 成 是 : 


if not isinstance(x, list) and isiterable(x): 
x = list(x) 


5| 入 (import) 


在 Python 中 ， 模 块 (module) 就 是 一 个 舍 有 
函数 和 变量 定义 以 及 从 其 他 .py 文件 引入 的 此 关东 
西 的 .py 文件 。 假设 我 们 有 下 面 这 样 一 个 模块 : 


# some_module.py 


PI = 3.14159 


def f(x): 
return x + 2 


def g(a, b): 
return a + b 


如 采 想 要 引入 some_module.py 中 定义 的 变 
函数 ， 我 们 可 以 在 同一 个 目 孙 下 创建 另 


import some_module 
result = some_ module.f(5) 
pi = some_module.PI 


还 可 以 写成 这 样 : 


Ex 村 


通过 as 关键 字 ， 你 可 以 引入 不 同 的 变量 名 译注 


Import Some_module as sm 
from some module import PI as pi, g as gf 


ri 
r2 


sm.f(pi) 
gf(6, pi) 


二 元 运算 从 和 比较 运算 符 


大 部 分 二 元 数学 运算 和 比较 运算 都 跟 我 们 息 


In [263]: 5 - 7 In [264]: 12 + 21.5 
Out[263]: -2 Out[264]: 33.5 


In [265]: 5 <= 2 
Out[265]: False 


表 A-1 中 列 出 了 所 有 可 用 的 二 元 运算 伯 。 


要 判断 两 个 引用 是 否 指 同 同一 个 对 象 ， 可 以 
使 用 is 天 键 子 。 如 采 想 判断 两 个 引用 十 售 不 是 指 同 
同一 个 对 象 ， 则 可 以 使 用 is not: 


In [266]: a = [1, 2, 3] 


In [267]: b= a 


# 注意 ，1List 函 数 始终 会 创建 新 列表 
In [268]: c = list(a) 


In [269]: a is b 


Out[269]: True 
In [270]: a is not c 
Out[270]: True 


注意 ， 这 跟 比 较 运 算 "==" 不 是 一 回 事 ， 因 为 
对 于 上 面 这 个 情况 ， 我 们 将 会 得 到 |: 


In [271]: a == c 
Out[271]: True 


is 和 is not 第 常用 于 判断 变量 是 否 为 None， 
为 None 的 实例 只 有 一 个 : 


In [272]: a = None 


In [273]: a is None 
Out[273]: True 


表 A-1: 二 元 运算 符 

运算 说 明 

a+b aj 加 b 

a-b a 减 b 

a a 乘 以 b 

a/b a 除 以 b 

a//b a 除 以 b 后 向 下 圆 整 ， 丢 弃 小 数 部 分 

a xx bb a 的 b 次 方 

a&b 如 果 a 和 b 均 为 True， 则 结果 为 True。 对 于 整数 ， 执 行 按 位 与 操作 

alb 如 果 a 和 b 任 何 一 个 为 Tue， 则 结果 为 Tue。 对 于 整数 ， 执 行 按 位 或 操作 
aAb 对 于 布尔 值 ， 如 果 a 或 pb 为 True (但 不 都 为 TTue) ， 则 结果 为 True。 对 于 


整数 ， 执 行 按 位 异 或 操作 


a==b 如 果 a 等 于 b， 则 结果 为 True 

al=b 如 果 a 不 等 于 b， 则 结果 为 True 
a<=b、a<b ”如果 a 小 于 等 于 (或 小 于 ) b， 则 结果 为 True 
a>b、a>=b 如 果 a 大 于 (或 大 于 等 于 ) b， 则 结果 为 True 


aisb 如 果 引 用 a 和 b 指 向 同一 个 Python 对 象 ， 则 结果 为 True 
aisnotb 如 果 引 用 a 和 b 指 向 不 同 的 Python 对 象 ， 则 结果 为 True 
严格 与 懒 展 


无 论 使 用 什么 编程 语言 ， 都 必须 了 解 表达 式 
侯 求 值 的 。 看 看 下 面 这 两 个 何 单 的 表达 
I\: 


在 Python 中 ， 只 要 这 些 语句 彼 求 值 ， 相 天 计 
算 束 会 立即 (也 就 是 严格 ) 发 生 ，d 的 值 会 被 设置 
为 30。 而 在 另 一 种 编程 范式 中 (比如 Haskell 这 样 
的 纯 函 数 编程 语言 ) ，d 的 值 在 被 使 用 之 前 是 不 会 
俄 计算 出 来 的 。 这 种 将 计算 推迟 的 中 想 通 第 称 为 
延迟 计算 (lazy evaluation 3) 。 而 Python 是 一 
种 非常 严格 的 (急性 子 ) 语言 。 几 乎 在 任何 时 
修 ， 计 算 过 程 和 表达 式 都 是 并 即 求 值 的 。 即 使 是 
在 上 面 那个 答 单 的 例子 中 ， 也 是 移 计 算 b *c 的 结 来 
然后 再 将 其 与 a 加 起 来 时 。 


有 一 些 Python 技 术 (尤其 是 用 到 迭代 器 和 生 
成 器 的 那些 ) 可 以 用 于 实现 延迟 计算 。 在 数据 密 
集 型 应 用 中 ， 当 执行 一 些 负 奏 非 常 高 的 计算 时 
(这 种 情况 不 太 多 ) ， 这 些 技术 束 能 派 上 用 场 
Ts 


可 变 和 不 可 变 的 对 象 


大 部 分 Python 对 象 是 可 变 的 (mutable) ， 比 
如 列表 、 字 典 、NumPy 数 组 以 及 大 部 分 用 户 目 定 
义 类 型 (类) 。 也 就 是 说 ， 它 们 所 包含 的 对 象 或 
值 是 可 以 被 修改 的 。 

In [274]: a_list = ['foo', 2, [4, 5]] 

In [275]: a_list[2] = (3, 4) 


In [276]: a_list 
Out[276]: ['foo', 2, (3, 4)] 


而 其 他 的 (如 字符 串 和 元 组 等 ， 则 古 不 可 变 
的 (immutable) 于 4. 


In [277]: a tuple = (3, 5, (4, 5)) 


In [278]: a_tuple[1] = 'four' 


TypeError Traceback (most 
recent call last) 

<ipython-input-278-b7966a9ae0f1> in <module>() 

----> 1 a tuple[1] = 'four' 

TypeError: 'tuple' object does not support item assignment 


注意 ， 仅 仅 因 为 “可 以 修改 某 个 对 象 > 并 不 代 
表 “ 就 该 那么 做 ”。 这 种 行为 在 编程 中 也 叫做 副 作 
用 (side effect) 。 例 如 ， 在 编写 一 个 函数 时 ， 任 
何 副作用 都 应 该 通过 该 函数 的 文档 或 注释 明确 地 
告知 用 户 。 即 使 可 以 使 用 可 变 对 象 ， 我 也 建议 尽 
量 避 免 副作用 且 注 重 不 变性 (immutability) 。 


标量 类 型 


Python 有 一 些 用 于 处 理 数 值 数据 、 字 符 串 、 
布尔 值 《True 或 False) 以 及 日 期 /时 间 的 内 置 类 
型 。 表 A-2 列 出 了 主要 的 标量 类 型 。 后 面 我 们 将 单 
独 讨论 日 期 /时 间 的 处 理 ， 因 为 它们 是 由 标准 库 中 
的 datetime 模 块 提供 的 。 


表 A-2: 标准 的 Python 标量 类 


类 型 说 明 

None Python 的 “null” 值 (None 只 存在 一 个 实例 对 象 ) 

str 字符 串 类 型 。Python 2.x 中 只 有 ASCll 值 ， 而 Python 3 中 则 是 Unicode 
unicode Unicode 字 符 串 类 型 

float 双 精 度 (64 位 ) 浮 点 数 。 注 意 ， 这 里 没有 专门 的 double 类 型 

bool True 或 False 

int 有 符号 整数 ， 其 最 大 值 由 平台 决定 

long 任意 精度 的 有 符号 整数 。 大 的 int 值 会 被 自动 转换 为 long 


数值 类 型 


用 于 表示 数字 的 主要 Python 类 型 是 int 和 float 。 
能 被 保存 为 int 的 整数 的 大 小 由 平台 决定 (是 32 位 
还 是 64 位 ) ， 但 是 Python 会 目 动 将 非常 大 的 整数 
转换 为 ong， 它 可 以 存储 任意 大 小 的 整数 。 


in [279]: ival = 17239871 
In [280]: ival ** 6 
Out[280]: 26254519291092456596965462913230729701102721L 
浮 点 数 会 被 表示 为 Python 的 float 类 型 。 浮 点 数 
会 被 保存 为 一 个 双 精 度 (64 位 ) 值 。 它 们 也 可 以 
In [281]: Fval = 7.243 


In [282]: fval2 = 6.78e-5 


在 Python 3 中 ， 整 数 除法 除 不 尽 时 就 会 产生 一 
个 浮上 所 数 : 


In [284]: 3 /2 
Out[284]: 1.5 


在 Python 2.7 及 以 下 版 本 中 ( 某 些 读者 现在 用 
的 可 能 就 是 计生 5) ， 只 要 将 下 面 这 条 怪 模 怪 样 的 
语句 汪 加 到 自 定义 模 志 的 顶部 如 可 修改 这 个 类 认 
行为 


from future_ _ import division 


如 采 疫 加 这 名 的 话 ， 你 也 可 以 显 却 地 将 分 母 
转换 成 浮 点 数 “ 6 


In [285]: 3 / float(2) 
Out[285]: 1.5 


要 得 到 C 风 格 的 整数 除法 (如 果 除 不 尽 ， 整 丢 
弃 小 数 部 分 i ， 使 用 除 后 圆 整 运算 符 (W) 即 可 : 


In [286]: 3 Z7 2 
Out[286]: 1 


复数 的 虚 部 是 用 j 表 示 的 : 
In [287]: cval = 1 + 2] 


In [288]: cval * (1 - 2j) 
Out[288]: (5+0j) 


很 多 人 都 是 因为 Python 强大 而 灵活 的 字符 串 
处 理 能 力 才 使 用 它 的 。 编 写字 符 串 字面 量 时 ， 履 
可 以 用 单 引 号 () 也 可 以 用 双 引 号 (") : 


a = 'one way of writing a String 
b = "another way" 


对 于 市 有 换行 符 的 多 行 字 符 串 ， 可 以 使 用 三 
重 引号 〈 即 "或 "") : 


C 二 tm 
This is a longer string that 
spans multiple lines 


Python 字符 绅 是 不 可 变 的 。 要 修改 字符 串 就 
只 能 创建 一 个 新 的 


In [289]: a = 'this is a string' 


In [290]: a[10] = 'f' 


TypeError Traceback (most 
recent call last) 

<ipython-input-290-5ca625d1ie504> in <module>() 

----> 1 a[1i0] = "ff" 

TypeError: 'str' object does not support item assignment 


In [291]: b = a.replace('string', 'longer string') 
In [292]: b 
Out[292]: 'this is a longer string' 


许多 python 对 象 都 可 以 用 str 画 数 转 换 为 字符 


In [293]: a= 5.6 In [294]: s = str(a) 


In [295]: s 
Out[295]: '5.6' 


由 于 字符 昌 其 实 是 一 串 字 符 序 列 ， 因 此 可 以 
被 当做 某 种 序列 类 型 (如 列表 、 元 组 等 进行 处 
理 : 


In [296]: s = 'python' In [297]: list(s) 
Out[297]: ['p', 'y', 't', 'h", 
'O'", 'n'] 


In [298]: s[:3] 
Out[298]: 'pyt' 


反 斜 本 (\) 是 转 义 任 (escape character) ， 
也 束 是 说 ， 它 可 用 于 指定 特殊 字符 《比如 新 行 m 或 
unicode 字 符 ) 。 要 编写 带 有 反 斜 杠 的 字符 串 字 面 
量 ， 也 需要 对 其 进行 转 义 : 


in [299]: s = '12\\34" 


In [300]: print s 
12\34 


如 琳 字 符 串 涡 有 很 多 反 儿 村 且 没 有 特殊 子 
符 ， 你 吏 会 发 现 这 个 办 法 很 容易 让 人 抓 狂 。 符 运 
的 是， 你 可 以 在 字符 串 最 东边 引号 的 前 面 加 上 r， 
它 表 示 所 有 字符 应 该 按照 原本 的 样子 进行 解释 : 


In [301]: s = r'this\has\no\special\characters' 


In [302]: s 
Out[302]: 'this\\has\\no\\special\\characters' 


， =a 人 从、 二 二 i yA AR 

将 两 个 字符 串 加 起 来 会 产生 一 个 新 字符 串 : 
In [303]: a = 'this is the first half ' 
In [304]: b = "and this is the second half' 
In [305]: a + b 


Out[305]: 'this is the first half and this is the second 
half' 


字符 串 和 格式 化 是 太一 个 重要 的 主题 。Python 3 
市 来 了 一 些 狐 的 字符 串 格式 化 手段 ， 这 里 我 简要 
说 明 一 下 其 主要 机 制 。 以 一 个 % 开 头 且 后 面 跟 春 
一 个 或 多 个 格式 字符 的 字符 串 是 需要 插入 值 的 目 
标 〈 这 非常 类 似 于 C 语 言 中 的 printf 函 数 ) 。 看 看 
下 面 这 个 字符 串 : 


In [306]: template = '%.2f %s are worth $%d 


在 这 个 字符 串 中 ，%s 表 示 将 参数 格式 化 为 字 
符 串 ，%.2f 表 示 一 个 带 有 2 位 小 数 的 数字 ，%d 表 示 
一 个 整数 。 要 用 实 参 替换 这 些 格 式 化 形 参 ， 需 要 
用 到 二 元 运算 符 % 以 及 由 值 组 成 的 元 组 : 


In [307]: template % (4.5560, 'Argentine Pesos', 1) 
Out[307]: '4.56 Argentine Pesos are worth $1' 


字符 串 格式 化 是 一 个 很 大 的 主 古 ， 控 制 值 在 
结 末 字符 串 中 的 格式 化 效 采 的 方式 非常 多 。 我 建 
议 你 在 网 上 多 找 一 些 有 天 于 此 的 等 料 来 看 看 。 


这 里 之 所 以 要 专门 讨论 通用 字符 串 处 理 ， 是 
因为 它 有 关于 数据 分 析 ， 更 多 细 季 请 参阅 第 7 革 。 


布尔 值 


Python 中 的 两 个 布尔 值 分 别 写作 True 和 False。 
比较 运算 和 条 件 表 达 式 都 会 产生 True 或 False。 布 
尔 值 可 以 用 and 和 or 关键 字 进 行 连接 : 

In [308]: True and True 


Out[308]: True 


In [309]: False or True 
Out[309]: True 


几乎 所 有 内 置 的 Python 类 型 以 及 任何 定义 了 
nonzero ”魔术 方法 的 类 都 能 在 if 语句 中 被 解 释 
为 True 或 False: 

in T3160]: a = [1, 2, 3] 
0 i 'I found something!' 
oe rah 
In [311]: b = [] 
RR not b: 
print 'Empty!' 


Empty'! 


Python 中 大 部 分 对 象 都 有 真 假 的 概念 。 比 如 
说 ， 如 果 衬 序列“ 列表、 字典、 元 组 等 ) 用 于 控 
制 流 〈 就 像 上 面 的 空 列表 b) 就 会 被 当做 False 处 
理 。 要 想 知 道 某 个 对 象 究 竟 会 被 强制 转换 成 哪个 
布尔 值 ， 使 用 bool 函 数 即 可 : 


In [312]: bool([]1), bool([1, 2, 3]) 
Out[312]: (False, True) 


In [313]: bool('Hello world!'), bool("'') 
Out[313]: (True, False) 


In [314]: bool(0), bool(1) 
Out[314]: (False, True) 


类 型 转换 


str、bool、int 以 及 float 等 类 型 也 可 用 作 将 值 转 
换 成 该 类 型 的 函数 : 


In [315]: § = '3.14159" 


In [316]: fval = float(s) In [317]: type(fval) 
Out[317]: float 

In [318]: int(fval) In [319]: bool(fval) In 

[320]: bool(0) 

Out[318]: 3 Out[319]: True 


Out[320]: False 
None 


None 是 Python 的 空 值 类 型 。 如 条 一 个 函数 没 
有 显 式 地 返回 值 ， 则 隐 式 返回 None 。 


In [321]: a = None 
In [322]: a is None 
Out[322]: True 


In [323]: b = 5 


In [324]: b is not None 
Out[324]: True 


None 还 是 函数 可 选 参数 的 一 种 第 见 默 认 信 : 


def add_and_maybe_multiply(a, b, c=None): 
result =a+b 


if c is not None: 
result = result * c 


return result 


我 们 要 牢记 ，None 不 是 一 个 保留 天 键 字 ， 它 
只 是 NoneType 的 一 个 实例 而 已 。 


日 期 和 时 间 


Python 内 置 的 datetime 模 块 捉 供 了 datetime、 
date 以 及 time 等 类 型 。datetime 类 型 是 用 得 最 多 


的 ， 筷 合并 了 你 存在 date 和 time 中 的 信息 : 


In [325]: from datetime import datetime, date, time 
In [326]: dt = datetime(2011, 10, 29, 20, 30, 21) 


In [327]: dt.day In [328]: dt.minute 
Out[327]: 29 Out[328]: 30 


给 定 一 个 datetime 实 例 ， 你 可 以 通过 调用 其 
date 和 time 方 法 提取 相应 的 date 和 time 对 象 : 


In [329]: dt.date() In [330]: 
dt.time( ) 
Out[329]: datetime.date(2011, 10, 29) Out[330]: 


datetime.time(20, 30, 21) 


strftime 方 法 用 于 将 datetime 格 式 化 为 字符 串 : 


In [331]: dt.strftime('%m/%d/%Y %H:%M"') 
Out[331]: '10/29/2011 20:30' 


字符 串 可 以 通过 strptime 函 数 转换 (解析 ) 为 
datetime 对 和 象 : 


In [332]: datetime.strptime('20091031', '%Y%m%d") 
Out[332]: datetime.datetime(2009, 10, 31, 0, 0) 


完整 的 格式 化 定义 请 参见 表 10-2 。 


在 对 时 间 序 列 数据 进行 聚合 或 分 组 时 ， 可 能 
需要 符 换 datetime 中 的 一 些 字 段 。 例 如 ， 将 分 和 秘 
字段 蔡 换 为 0， 并 产生 一 个 新 对 象 : 


In [333]: dt.replace(minute=0, second=0) 
Out[333]: datetime.datetime(2011, 10, 29, 20, 0) 


两 个 datetime 对 象 的 差 会 产生 一 个 
datetime.timedelta 关 型 


In [334]: dt2 = datetime(2011, 11, 15, 22, 30) 


In [335]: delta = dt2 - dt 


In [336]: delta In [337]: 
type(delta) 
Out[336]: datetime.timedelta(17, 7179) Out[337]: 


datetime.timedelta 


将 一 个 timedelta 加 到 一 个 datetime 上 会 产生 一 
个 新 的 datetime: 


In [338]: dt 
Out[338]: datetime.datetime(2011, 10, 29, 20, 30, 21) 


In [339]: dt + delta 
Out[339]: datetime.datetime(2011, 11, 15, 22, 30) 


控制 沈 
if 、elif 丰 else 


if 语 句 是 一 种 最 第 见 的 控制 流 语 句 类 型 。 它 用 
于 判断 一 个 条 件 ， 如 琳 为 True， 则 执行 坚 跟 其 后 
的 代码 块 : 


if x < 0: 
print 'It's negative' 


一 条 if 语 句 可 以 跟 上 一 个 或 多 个 elif 块 以 及 一 
ee 0 (如 果 所 有 条 件 都 为 
False 


if x < 0: 
print 'It's negative' 
elif x == 0: 
print "Equal to zero' 
elif 09<X< 5: 
print 'Positive but smaller than 5' 
else: 
print 'Positive and larger than or equal to 5' 


如 果 任 何 一 个 条 件 为 TrTue， 则 其 后 的 elif 或 else 
块 就 不 会 执行 。 对 于 用 and 或 or 组 成 的 复合 条 件 ， 


We 的 顺序 求 值 的 ， 而 且 是 短路 
型 Us 

In [340]: a=5;b=7 

In [341]: c= 8; d=4 

In 4 if a<borc>d: 


i print 'Made it' 
Made it 


在 本 例 中 ， 比 较 运 算 c>d 是 不 会 被 计算 的 ， 
为 第 一 个 比较 运算 为 True。 


for 循 环 


for 循 环 用 于 对 集合 〈 比 如 列表 或 元 组 ) 或 迭 
代 句 进行 迭代 。for 循 环 的 标准 语法 是 : 


for value in collection: 
# 对 value 做 一 些 处 理 


continue 天 键 字 用 于 使 for 人 循环 提前 进入 下 一 次 
迭代 《〈“ 即 跳 过 代码 块 的 剩余 部 分 ) 。 看 看 下 面 这 
ee ， 其 功能 是 对 列表 中 的 整数 求 和 并 跳 过 
None4 目 : 


sequence = [1, 2, None, 4, None, 5] 
total = 0 
for value in sequence: 
if value is None: 
continue 
total += value 


break 关 键 子 用 于 使 for 人 循环 完全 退出 。 下 面 这 
段 代码 用 于 对 列表 的 元 又 求 和 ， 巡 到 5 整 退 出 : 

sequence = [1, 2, 0, 4, 6, 5, 2, 1|] 
total until 5 = 0 
for value in sequence: 

if value == 5: 

break 
total until] 5 += Value 


后 面 我 们 还 会 看 人 惠 ， 如 琳 集 合 或 送 代 右 的 元 
素 是 序列 类 型 (比如 元 组 或 列表 ) ， 那 么 还 可 以 
非 涅 方便 地 将 这 些 元 条 拆散 成 for 语 句 中 的 多 个 变 
量 : 


for a, b, c in Iterator : 
# 做 一 些 处 理 


while 循 环 


while 循 环 定 义 了 一 个 条 件 和 一 个 代码 块 ， 只 
要 条 件 不 为 False 或 循环 没有 人 被 break 显 式 终 止 ， 则 
代码 块 将 一 直 不 断 地 执行 下 去 : 


X = 256 
total = 0 
while x > 0: 
if total > 500: 
break 
total += x 
x=x//2 


pass 


pass 是 Python 中 的 “ 空 控 作 ” 语 句 。 它 可 以 个 用 
在 那些 没有 任何 功能 的 代码 块 中 。 由 于 Python 是 
人 日 行 划 分 代码 块 的 ， 所 以 它 的 存在 是 很 有 
必 J: 


print 'negative!' 
elif x == 0: 
# TOD0: 在 这 里 放 点 代码 
pass 
else 


print 'positive!' 


在 开发 一 个 新 功能 时 ， 管 稼 会 将 pass 用 作 代 码 
中 的 占 位 符 : 
def f(x, y 


， 2Z): 
# TODO: 实现 这 个 函数 ! 
pass 


异 季 处 理 


优雅 地 处 理 Python 销 误 或 异 音 是 构建 健壮 程 
序 的 重要 环节 。 在 数据 分 析 应 用 中 ， 许 多 函数 只 
对 特定 类 型 的 输入 有 歼 。 例 如 ，Python 的 float 函 数 
可 以 将 字符 串 转 换 为 浮 点 数 ， 但 是 如 有 果 输 入 值 不 
正确 就 会 产生 ValueError: 


In [343]: float('1.2345") 
Out[343]: 1.2345 


In [344]: float('something') 


ValueError Traceback (most 
recent call last) 

<ipython-input-344-439904410854> in <module>() 

----> 1 float('something') 

ValueError: could not convert string to float: something 


假设 我 们 想 要 编写 一 个 在 出 稍 时 能 优雅 地 返 
回 输入 参数 的 改进 版 float 范 数 。 我 们 可 以 编写 一 
个 新 函数 ， 并 把 对 float 范 数 的 调用 放 在 一 个 
try/except 块 中 : 
def attempt_float(x): 
i float (x) 


except: 
return x 


只 有 妆 float(x) 引 发 异 第 时 ，except 块 中 的 代码 
才 会 补 执 行 : 
In [346]: attempt_float('1.2345') 


Out[346]: 1.2345 


In [347]: attempt_float('something') 
Out[347]: 'something' 


你 可 能 已 经 注意 到 了 ，float 还 可 以 引发 
ValueError 以 外 的 异 第 : 


In [348]: float((1, 2)) 


TypeError Traceback (most 
recent call last) 

<ipython-input-348-842079ebb635> in <module>() 

----> 1 float((1, 2)) 

TypeError: float() argument must be a string or a number 


你 可 能 只 希望 处 理 ValueError， 因 为 TypeError 
(输入 参数 不 是 字符 串 或 数值 ) 可 能 意味 着 你 的 
程序 中 存在 合法 性 bug。 要 达到 这 个 目的 ， 在 
except 后 面 加 上 弄 单 类 型 即 可 : 


def attempt_float(x): 
try: 
return float(x) 
except ValueError: 
return x 


于 是 我 们 束 有 有 了: 


In [350]: attempt_float((1, 2)) 


TypeError Traceback (most 
recent call last) 
<ipython-input-350-9bdfd730cead> in <module>() 
----> 1 attempt_float((1, 2)) 
<ipython-input-349-3e06b8379b6b> in attempt_float(x) 

1 def attempt_float(x): 


2 try: 

5 return float(x) 
4 except ValueError : 
5 return X 


TypeError: float() argument must be a string or a number 


只 需 编 写 一 个 由 异常 类 型 组 成 的 元 组 〈 圆 括 
号 是 必需 的 ) 即 可 捕获 多 个 异常 : 


def attempt_float(x): 
try: 
return float(x) 
except (TypeError, ValueError): 
return x 


有 了 时 你 可 能 不 想 处 理 任何 异常 ， 而 只 是 布 望 
全 人 被 执行 。 
使 用 finally 即 可 达到 这 个 目的 : 


f = open(path, 'w') 


try: 
write _to_ file(f) 
finally: 
f.close() 


了 这里， 文件 句 柄 f 始 终 都 会 被 大 财 。 同 理 ， 你 
0 在 try 块 成 功 时 执行 ， 使 用 else 
D]: 


f = open(path, 'w') 


try: 

write_ to_ file(f) 
except: 

print 'Failed' 
else: 

print 'Succeeded' 
finally: 

f.close() 


range 和 Xrange 


range 函 数 用 于 产生 一 组 间隔 平均 的 整数 : 


In [352]: range(10) 
Out[352]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


可 以 指定 起 始 值 、 结 束 值 以 及 步 长 等 信息 : 


In [353]: range(0, 20, 2) 
Out[353]: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 


如 你 所 见 ，range 所 产生 的 整数 不 包括 末端 
值 。range 弟 用 于 按 索 引 对 序列 进行 适 代 : 
seq = [1, 2, 3, 4] 


for i in range(len(sedq)): 
val = seq[i] 


对 于 非常 长 的 范围 ， 建 议 使 用 xrange， 其 参数 
跟 range 一 样 ， 但 它 不 会 预 匈 产生 所 有 的 值 并 将 它 
们 保存 到 列表 中 (可 能 会 非常 大 ) ， 而 是 返回 一 
个 用 于 未 个 产生 整数 的 从 代 絮 。 下 面 这 段 代码 用 
于 对 0 到 9999 之 间 所 有 3 或 5 的 倍数 的 数字 求 和 : 


sum = 0 
for i In xrange(10000): 


# % 是 求 模 运算 符 
if x%3 ==0 orx% 5 == 0: 
sum += 工 


注意 : 在 Python 3 中 ，range 始 终 返 回 迭 代 
强 ， 因 此 也 整 没 必要 使 用 xrange 函 数 了 。 


三 开 我 区 芭 


Python 的 三 元 表达 式 (ternary expression) 介 
许 你 将 产生 一 个 值 的 if-else 块 写 到 一 行 或 一 个 表达 
式 中 。 其 语法 如 下 所 示 : 


value = true-expr if condition else false-expr 


其 中 的 true- expr 和 false-expr 可 以 是 任何 Python 
表达 2 它 跟 下 面 这 种 见长 格式 的 效 玉 一 梓 : 


if condition: 

value = true-expr 
else: 

value = false-expr 


下 面 十 一 个 具体 点 的 例子 : 


In [354]: x=5 


In [355]: 'Non-negative' if x >= 0 else 'Negative' 
Out[355]: 'Non-negative' 


跟 if-else 块 一 样 ， 只 有 一 个 表达 式 会 彼 求 值 。 
虽然 这 可 能 会 引诱 你 总 是 使 用 三 元 表达 式 去 浓缩 
你 的 代码 ， 但 要 意识 到 ， 如 果 条 件 以 及 true 和 false 
表达 式 非 常 复杂 ， 就 可 能 会 辆 牲 可 读 性 


数据 结构 和 序列 


Python 的 数据 结构 简单 而 强大 。 精 通 其 
是 成 为 专家 级 Python 程 序 员 的 关键 环 市 


元 组 


元 组 (tuple) 是 一 种 一 维 的 、 定 长 的 、 不 可 
变 的 Python 对 象 序列 。 最 简单 的 创建 方式 是 一 组 
以 逗号 隐 开 的 值 : 

In [356]: tup = 4, 5, 6 
In [357]: tu 
Out[357]: (4, 5, 6) 

在 更 复杂 的 表达 式 中 定义 元 组 时 ， 篆 弟 需 要 
用 圆 括号 将 值 围 起 来 ， 比 如 下 面 这 个 例子 ， 它 创 
于 了 一 个 由 元 组 组 成 的 元 组 : 


In [358]: nested tup = (4, 5, 6), (7, 8) 


In [359]: nested_ tup 
Out[359]: ((4, 5, 6), (7, 8)) 


通过 调用 tuple， 任 何 序列 或 欠 代 瑚 都 可 以 被 
转换 为 元 组 : 


In [360]: op 0, 2]) 
Out[360]: (4, 0, 2) 


In [361]: tup = tuple('string') 


In [362]: tup 
Out[362]: CS dn a 'i", 'n', 'g') 


跟 大 部 分 其 他 序列 类 型 一 样 ， 元 组 的 元 妈 也 
可 以 通过 方 括号 ([]) 进行 访问 。 跟 C、C++、 
1 人 Python 中 的 序列 也 是 从 0 开 
台 索 引 的 : 


In [363]: tup[0] 
Out[363]: 's' 


虽然 存储 在 元 组 中 的 对 象 本 身 可 能 是 可 变 
的 ， 但 一 旦 创建 完毕 ， 存 放 在 各 个 插 模 中 的 对 象 
整 不 能 再 人 补 修改 了 : 


In [364]: tup = tuple(['foo’', [1, 2], True|]) 


In [365]: tup[2] = False 
TypeError Traceback (most 
recent call last) 
<ipython-input-365-c7308343b841> in <module>() 
--> 1 tup[2] = False 
TypeError: 'tuple' object does not Support item assignment 


# 不 过 
In [366]: tup[1].append(3) 


In [367]: tup 
Out[367]: ('foo', [1, 2, 3], True) 


元 组 可 以 通过 加 号 (+) 运算 符 连 接 起 来 以 产 
生 更 长 的 元 组 : 


In [368]: (4, None, 'foo') + (6, 0) + ('bar',) 
Out[368]: (4, None, 'foo', 6, 0, 'bar') 


跟 列 表 一 样 ， 对 一 个 元 组 乘 以 一 个 整数 ， 相 
当 于 是 连接 该 元 组 的 多 个 副本 。 

In [369]: ('foo', ' bar ' ) * 4 

Out[369]: ('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 

'bar') 

注意 ， 对 象 本 身 是 不 会 被 复制 的 ， 这 里 涉及 
的 只 是 它们 的 引用 而 已 。 


元 组 拆 包 


如 末 对 元 组 型 变量 表达 式 进行 购 值 ,Python 
束 会 宪 试 将 等 号 石 侧 的 值 进行 拆 包 
(unpacking) 


In [370]: tup = (4, 5, 6) 
In [371]: a, b, c = tup 
In [372]: b 

Out[372]: 5 


即使 是 蔡 套 元 组 也 能 被 拆 包 : 
In [373]: tup = 4, 5, (6, 7) 
In [374]: a, b, (c, d) = tup 


In [375]: d 
out[375]: 7 


利用 该 功能 可 以 非常 轻松 地 交换 变量 名 。 这 
个 任务 在 其 他 诗 多 语言 中 可 能 是 下 面 这 个 样子 : 


S To 
和 三 
IN 瑟 
十 局 1l 
三 
已 Ee 


几 
ll 

几 

(ey 


这 量 拆 包 功能 党 用 于 对 由 元 组 或 列表 组 成 的 
厚 列 进行 运作: 
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)] 


for a, b, c in sed: 
pass 


另 一 个 稼 见 用 法 是 处 理 从 函数 中 返回 的 多 个 
值 。 稍 后 将 详细 介绍 。 


元 组 方法 


由 于 元 组 的 大 小 和 内 存 不 能 锌 修改 ， 所 以 其 
实例 方法 很 少 。 最 有 用 的 是 count (对 列表 也 是 如 
此 ) ， 它 用 于 计算 指定 值 的 出 现 次 数 : 


in [376]: a = (1, 2, 2, 2, 3, 4, 2) 


In [377]: a.count(2) 
Out[377]: 4 


列表 


跟 元 组 相 比 ， 列 表 (list) 是 变 长 的 ， 而 且 其 
内 容 也 是 可 以 修改 的 。 它 可 以 通过 方 括号 ([]) 或 
list 函 效 进 行 定义 : 
In [378]: a_list = [2, 3, 7, Nonel] 


In [379]: tup = ('foo', 'bar', 'baz') 


In [380]: b_list = list(tup) In [381]: b_list 
Out[381]: ['foo', 

'bar', 'baz'] 

In [382]: b_list[1] = 'peekaboo' In [383]: b_list 


Out[383]: ['foo', 
'peekaboo', 'baz '] 


列表 和 元 组 在 语义 上 走 关 不 多 的 ， 都 是 一 维 
序列 ， 因 此 它们 在 许多 函数 中 是 可 以 互 换 的 。 


添加 和 移 除 元 素 


通过 append 方 法 ， 可 以 将 元 系 装 加 到 列表 的 
末尾 : 


In [384]: b_list.append('dwarf') 


In [385]: b_list 
Out[385]: ['foo', 'peekaboo', 'baz', 'dwarf'] 


利用 insert 可 以 将 元 素 插 入 到 列表 的 指定 位 
In [386]: b_list.insert(1, "red ' ) 


In [387]: b_list 
Out[387]: ['foo', 'red', 'peekaboo', 'baz', 'dwarf'] 


警 各 : insert 的 计算 量 要 比 append 大 ， 因 为 后 
续 的 引用 必须 被 移动 以 便 为 靳 元 素 腾 地 方 。 


insert 上 时 赣 运 算 征 pop ， 它 用 于 移 除 并 返回 指定 
索引 处 的 元 素 : 


In [388]: b_list.pop(2) 
Out[388]: 'peekaboo' 


In [389]: b_list 
Out[389]: ['foo', 'red', 'baz', 'dwarf'] 
remove 用 于 按 值 删除 元 系 ， 它 找到 第 一 个 符 
合 要 求 的 值 然 后 将 其 从 列表 中 删除 : 
In [390]: b_list.append('foo') 
In [391]: b_list.remove('foo') 
In [392]: b_list 


Out[392]: ['red', 'baz', 'dwarf', 'foo'] 


如 果 不 考虑 (使 用 append 和 remove 时 的 ) 性 
能 ，Python 列 表 可 以 是 一 种 非 划 不 篆 的 “多 重 集 
合 ” 数 据 结构 。 


通过 in 关键 季 ， 你 可 以 判断 列表 中 是 人 否 台 有 某 


个 值 


In a 'dwarf' in b_list 
注意 ， 判 断 列表 是 否 售 有 某 个 值 的 操作 比 字 
典 (dict) 和 集合 (set) 慢 得 多 ， 因 为 Python 会 对 
列表 中 的 值 进行 线性 扫 摘 ， 而 男 外 两 个 (基于 哈 
希 表 ) 则 可 以 瞬间 完成 判断 。 


停放 诈 表 


跟 元 组 一 样 ， 用 加 号 (+) 将 两 个 列表 加 起 来 
印 可 实现 合并 : 


In [394]: [4, None, 'foo'] + [7, 8, (2, 3)] 
Out[394]: [4, None, 'foo', 7, 8, (2, 3)] 
对 于 一 个 已 定义 的 列表 ， 可 以 用 extend 方 法 一 
次 性 添加 多 个 元 又 : 
In [395]: x = [4, None, 'foo'|] 
In [396]: x.extend([7, 8, (2, 3)]) 


In [397]: x 
Out[397]: [4, None, 'foo', 7, 8, (2, 3)] 


注意 ， 列 表 的 合并 是 一 种 相当 费 资源 的 操 
作 ， 因 为 必须 创建 一 个 新 列表 并 将 所 有 对 象 复制 


过 去 。 而 用 extend 将 元 素 附 加 到 现 有 列表 (尤其 


在 构建 一 个 大 列表 时 ) 束 会 好 很 多 。 因 此 ， 


everything = [|] 
for chunk in list_of_lists: 
everything.extend(chunk) 


要 比 等 价 的 合并 操作 快 得 多 


everything = 
for chunk in list_of_lists: 
everything = everything + chunk 


排序 


日 
人 


调用 列表 的 sort 方 法 可 以 实现 就 地 排序 (无 需 


创建 新 对 象 ) : 


In [398]: a = [7, 2, 5, 1, 3] 
In [399]: a.sort() 


In [400]: a 
Out[400]: [1, 2, 3, 5, 7] 


sort 有 几 个 很 不 错 的 选项 。 一 个 是 次 要 排 友 


刍 ， 即 一 个 能 够 产生 可 用 于 排序 的 值 的 画 数 。 例 


如 ， 我 们 可 以 通过 长 度 对 一 组 字符 串 进行 排序 : 


In [401]: b= ['saw', 'small', 'He', 'foxes', ' Six '] 
In [402]: b.sort(key=len) 


In [403]: b 
Out[403]: ['He', 'saw', 'six', 'small', 'foxes'] 


二 分 搜索 及 维护 有 序列 表 


内 置 的 bisect 模 块 实 现 了 二 分 查找 以 及 对 有 序 
列表 的 插入 操作 。Pbisect.bisect 可 以 找 出 新 元 素 应 
该 被 插入 到 哪个 位 置 才 能 保持 原 列 表 的 有 序 性 ， 
而 bisect.insort 则 确实 地 将 新 元 素 插 入 到 那个 位 置 
Es 


In [404]: import bisect 

In [405]: c = [1, 2, 2, 2, 3, 4, 7] 
In [406]: bisect.bisect(c, 2) 
Out[406]: 4 

In [407]: bisect.bisect(c, 5) 
Out[407]: 6 

In [408]: bisect.insort(c, 6) 


In [409]: c 
Out[409]: [1i, 2, 2, 2, 3, 4, 6, 7] 


霍 伍 : ”bisect 模 块 的 久 数 不 会 判断 原 列表 是 否 
是 有 序 的 ， 因 为 这 样 做 的 开销 太 大 了 了。 因此， 将 
它们 用 于 无 序列 表 虽 然 不 会 报错 ， 但 可 能 会 导致 
不 正确 的 结 末 。 


切 厂 


通过 切片 标记 法 ， 你 可 以 选取 序列 类 型 ( 数 
组 、 元 组 、NumPy 数 组 等 ) 的 子 集 ， 其 基本 形式 
ee (D) 以 及 传 入 其 中 的 start:stop 构 


In [410]: seq = [7, 2, 3, 7, 5, 6, 0, 1] 
In [411]: seq[1:5] 
out[411]: [2, 3, 7, 5] 


切 厂 还 可 以 被 赋值 为 一 段 序 列 : 
In [412]: seq[3:4] = [6, 3] 


In [413]: sed 
out[413]: [7, 2, 3, 6, 3, 5, 6, 0, 1] 


由 于 start 索 引 处 的 元 素 是 补 包 括 在 内 的 ， 而 
stop 索 引 处 的 元 陛 是 未 航 包 括 在 内 的 ， 所 以 结 采 中 
的 元 系数 量 是 stop start 。 


start 或 stop 都 是 可 以 省 略 的 ， 此 时 它们 分 别 默 
认为 序列 的 起 始 处 和 结尾 处 : 


In [414]: seq[:5] In [415]: seq[3:] 
Out[414]: [7, 2, 3, 6, 3] Out[415]: [6, 3, 5, 6, 0, 
1] 


负数 索引 从 序列 的 末尾 开始 切片 


In [416]: seq[-4:] In [417]: seq[-6:-2] 
out[416]: [5, 6, 0, 1] out[417]: [6, 3, 5, 6] 


切片 的 语法 需要 花 点 时 间 去 适应 ， 尤 其 是 当 
你 原来 用 的 是 R 或 MATLAB 时 。 图 A-2 形 象 地 说 明 
了 正 整 数 和 负 整 数 的 切片 过 程 。 


还 可 以 在 第 二 个 冒号 后 面 加 上 步 长 (step) 。 
比如 每 隔 一 位 取出 一 个 元 么 : 


In [418]: seq[::2] 
Out[418]: [7, 3, 3, 6, 1] 


在 这 里 使 用 一 1 十 一 个 很 巧妙 的 办 法 ， 它 可 以 
实现 列表 或 元 组 的 反 友 : 


In [419]: seq[::-1] 
out[419]: [1i, 0, 6, 5, 3, 6, 3, 2, 7] 


2 3 5 
ee 
0 1 2 3 4 5 6 
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[EL bloly 


string[2:4] string[-5:-2] 


图 A-2: Python 的 切片 方式 
内 置 的 序列 函数 


python 有 一 些 很 不 错 的 序列 画 数 ， 你 应 该 熟 
悉 它们 ， 只 要 有 机 会 就 用 。 


enumerate 


在 对 一 个 序列 进行 送 代 时 ， 常 汝 需要 跟踪 当 
前 项 的 索引 。 下 面 是 一 种 DIY 的 办 法 : 


i=0 

for value in collection: 
# 用 value 做 一 些 事情 
i += 1 


由 于 这 种 事情 很 常见 ， 所 以 Python 束 内 置 了 
一 个 enumerate 畏 数 ， 它 可 以 逐个 返回 序列 的 
(ivalue) 元 组 : 


for i, value in enumerate(collection) : 
# 用 value 做 一 些 事情 


在 对 数据 进行 驼 引 时 ，enumerateji 不 有 一 种 不 
销 的 使 用 模式 ， 即 求 取 一 个 将 序列 值 (假定 是 唯 
一 的 ) 映射 到 其 所 在 位 置 的 字典 。 


In [420]: some_list = ['foo', 'bar', 'baz'] 


In [421]: mapping = dict((v, i) for i, v in 
enumerate(some_list)) 


In [422]: mapping 
Out[422]: {'bar': 1, 'baz': 2, 'foo': 0O} 


sorted 


sorted 邢 数 可 以 将 任何 序列 返回 为 一 个 新 的 有 
序列 表 : 


In [423]: sorted([7, 1, 2, 6, 0, 3, 2]) 
Out[423]: [0, 1, 2, 2, 3, 6, 7] 


In [424]: sorted('horse race') 
Out[424]: [' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's'] 
肖 第 将 sorted 和 和 set 结合 起 来 使 用 以 得 到 一 个 由 
序列 中 的 唯一 元 聚 组 成 的 有 序列 表 : 


In [425]: sorted(set('this is just some string')) 
Out[425]: [ “了 'e', 'g", 'h", TI "> 'm"', 'n', "0 8 罗 
SS “七 'u'] 


zip 


zip 用 于 将 多 个 序列 (列表 、 元 组 等 ) 中 的 元 
素 “ 配 对 ”， 从 而 产生 一 个 新 的 元 组 列表 : 


In [426]: sed1 = ['foo', 'bar', 'baz'] 
In [427]: seq2 = ['one', 'two', 'three'] 
In [428]: zip(seqi, sedq2) 

Out[428]: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')] 


Zip 可 以 接受 任意 数量 的 序列 ， 最 终 得 到 的 元 
组 数量 由 最 短 的 序列 决定 : 


In [429]: sed3 = [False，True] 


In [430]: zip(seqi, seq2, sedq3) 
Out[430]: [('foo', 'one', False), ('bar', 'two', True)] 


zip 最 征 第 见 的 用 法 是 同时 迷 代 多 个 序列 ， 
以 结合 enumerate 一 起 使 用 : 


In [431]: for i, (a, b) in enumerate(zip(seq1i, seq2)): 
i print('%d: %s, %s' % (i, a, b)) 


0: foo, one 
1: bar, two 
2: baz, three 


对 于 “已 压缩 的 ”(zipped) 序列 ，zip 还 有 一 个 
很 巧妙 的 用 法 ， 即 对 该 序列 进行 “ 解 
压 ”(unzip) 。 其 实 束 是 将 一 组 行 转换 为 一 组 列 。 
其 语法 看 起 来 有 点 伸 秘 : 


In [432]: pitchers = [('Nolan', 'Ryan'), ('Roger', 
"Clemens ' )， 
pe ('Schilling', 'Curt')] 

In [433]: first_names, last_names = zip(*pitchers) 


In [434]: first_names 
Out[434]: ('Nolan', 'Roger', 'Schilling') 


In [435]: last_names 
Out[435]: ('Ryan', 'Clemens', 'Curt') 


稍 后 我 将 详细 讨论 函数 调用 中 星 号 (*) 的 用 
法 。 其 实 它 相当 于 : 


zip(seq[0], seq[1], ..., seq[llen(seq) - 1]) 


reversed 


reversed 用 于 按 逆 友和 迭 代 序 列 中 的 元 素 : 


In [436]: list(reversed(range(10))) 
Out[436]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0] 


Pg 
Ts 


字典 (dict) 可 算是 Python 中 最 重要 的 内 置 数 
据 结构 。 它 更 常见 的 名 字 是 哈 希 映射 (hash map) 
或 相 联 数组 (associative array) 。 它 是 一 种 大 小 可 
变 的 键 值 对 集 ， 其 中 的 键 (key) 和 值 (value) 都 
是 Python 对 象 。 创 建 字 典 的 方式 之 一 是 : 使 用 大 
括号 ({}) 并 用 冒号 分 隔 键 和 值 。 

In [437]: empty_dict = {} 

In [438]: di1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]1} 
In [439]: di 

Out[439]: {'a': 'some value', 'b': [1, 2, 3, 4]} 

访问 (以 及 捅 入、 设置 ) 元 素 的 语法 跟 列 表 
和 元 组 是 一 样 的 : 


In [440]: di[7] = 'an integer' 


In [441]: d1 
Out[441]: {7: "an integer', 'a': 'some value', 'b': [1, 2, 3, 
4]} 


In [442]: di['b'] 
Out[442]: [1, 2, 3, 4] 


你 可 以 判断 字典 中 是 人 否 存 在 茶 个 键 ， 其 语法 
人 


In [443]: 'b' in di 
Out[443]: True 


使 用 del 天 键 字 或 pop 方 法 (删除 指定 值 之 后 将 
其 返回 ) 可 以 删除 值 : 


In [444]: d1[5] = 'some Value， 

In [445]: di['dummy'] = "another Value' 
In [446]: del d1[5] 

In [447]: ret = d1.pop('dummy ') 


In [448]: ret 
Out[448]: "another Value' 


keys 丰 values 方 法 分 别 用 于 获取 键 和 值 的 列 
表 。 虽 然 键 值 对 没有 特定 的 顺序 ， 但 这 两 个 函数 
会 以 相同 的 顺序 输出 键 和 值 : 


In [449]: di1. 0 In [450]: di.values() 
be ee ['a’ ，7] Out[450]: ['some value', [1, 2, 
3, 4], "an 4 ] 


警告: 如 果 你 正在 使 用 Python 3， 则 
dict.keys() 和 dict.values() 会 运 回 送 代 絮 而 不 古 列 
表 。 


利用 update 方 法 ， 一 个 字典 可 以 被 合并 到 态 一 
个 字典 中 去 : 


In [451]: di.update({'b' : 'foo', 'c' : 12}) 

In [452]: d1 

Out[452]: {7: "an integer', 'a': 'some value', 'b': 'foo', 
'c': 12} 


从 序列 类 型 创建 字典 


有 了 时 你 可 能 会 想 将 两 个 序列 中 的 元 素 两 两 配 
对 地 组 成 一 个 字典 。 和 粗略 分 析 一 下 之 后 ， 你 可 能 
会 写 出 这 样 的 代码 : 


mapping = {} 
for key, value in zip(key_list, value_ list): 
mapping[key] = value 


由 于 字典 本 质 上 吏 生 一 个 二 元 元 组 集 ， 所 以 
以 用 dict 类 型 函数 直接 处 理 二 元 元 组 列 


In [453]: mapping = dict(zip(range(5), reversed(range(5)))) 


In [454]: mapping 
Out[454]: {0: 4，1: 3, 2: 2, 3: 1, 4: 0} 


和 后 我 们 将 讨论 有 天 字典 推导 式 的 知识 ， 这 
古 构 过 了 字典 的 为 一 种 优雅 的 方式 。 


默认 值 
下 面 这 样 的 逻辑 很 常见 : 


If key in some_dict: 

value = some_dict[key] 
else: 

value = default_value 


其 实 dict 的 get 和 pop 方 法 可 以 接受 一 个 可 供 返 
加 的 类 认 全 于 是 ， 上 面 的 if-else 块 就 可 以 被 简单 


value = some dict.get(key, default_value) 


如 有 果 key 不 存在， 则 get 默 认 返 回 None， 而 pop 

则 会 引发 一 个 异 第 。 在 设置 值 的 时 候 ， 第 第 会 将 

字典 中 的 值 处 理 成 别 的 集 类 型 《比如 列表 ) 。 例 

如 ， 根 据 首 字母 对 一 组 单词 进行 分 类 并 最 终 产生 
一 个 由 列表 组 成 的 字典 : 

In [456]: by_letter = {} 


In [457]: for word in words: 
ee letter = word[0] 
if letter not in by_letter: 
by_letter[letter|] = [word] 
else: 
by_letter[letter|.append(word) 


In [458]: by_letter 


Out[458]: {'a': ['apple', 'atom'], 'b': ['bat', "bar'， 
'book']} 


字典 的 setdefault 方 法 刚好 能 达到 这 个 目的 。 
上 上面 的 if-else 块 可 以 写成 : 


by_letter.setdefault(letter, [1]).append(word) 


内 置 的 collections 模 块 有 一 个 叫做 defaultdict 的 
类 ， 它 可 以 使 该 过 程 更 简单 。 传 入 一 个 类 型 或 函 
数 〈 用 于 生成 字典 各 揪 槽 所 使 用 的 默认 值 ) 即 可 
创建 出 一 个 defaultdict: 


from collections import defaultdict 

by_letter = defaultdict(1ist) 

for word in words: 
by_letter[word[0]].append(word) 


defaultdict 的 初始 化 姨 只 需要 一 个 可 调用 对 象 
(例如 各 种 函数 ) ， 并 不 需要 明确 的 类 型 。 
此 ， 如 果 你 想 要 将 默认 值 设 置 为 4， 只 需 传 入 一 个 

能 够 返回 4 的 函数 即 可 : 


counts = defaultdict(lambda: 4) 
字典 键 的 有 效 关 型 
虽然 字典 的 值 可 以 是 任何 Python 对 象 ， 但 键 


必须 是 不 可 变 对 象 ， 如 标量 类 型 (整数 、 浮 点 
数 、 字 符 串 ) 或 元 组 (元 组 中 的 所 有 对 象 也 必须 


是 不 可 变 的 ) " 这 里 的 术语 是 可 哈 布 性 
(hashability) 于 于 7。 通 过 hash 函 数 ， 你 可 以 判断 
On 
建 ) : 


In [459]: hash('string') 
Out[459]: -9167918882415130555 


In [460]: hash((1, 2, (2, 3))) 
Out[460]: 1097636502276347782 


In [461]: hash((1，2，[2，3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 
TypeError Traceback (most 
recent call last) 

<ipython-input-461-800cd1i4ba8be> in <module>() 
----> 1 hash((1，2，[2，3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 
TypeError: unhashable type: 'list' 


如 琳 要 将 列表 当做 健 ， 最 曾 单 的 办 法 束 古 将 
其 转换 成 元 组 : 


in [462]: d = {3 


In [463]: d[tuple([1, 2, 3])] = 5 


In [464]: d 
Out[464]: {(1, 2, 3): 5} 


(set) 是 由 唯一 元 素 组 成 的 无 序 集 。 你 
可 以 将 其 看 成 是 只 有 键 而 没有 值 的 字典 。 集 合 的 


创建 方式 有 二 : set 国 数 或 用 大 括号 包 起 来 的 集合 
字面 量 : 

In [465]: set([2, 2, 2, 1, 3, 3]) 

Out[465]: set([1, 2, 3]) 


In [466]: {2, 2, 2, 1, 3, 3} 
Out[466]: set([1, 2, 3]) 


集合 文 持 各 种 数学 集合 运算 ， 如 并 、 交 、 老 
以 及 对 称 差 等 。 表 A-3 列 出 了 和 常用 的 集合 方法 : 
in [467]: a = {1, 2, 3, 4, 5} 
In [468]: b = {3, 4, 5, 6, 7, 8} 


In [469]: a |b # 并 (或 ) 
Out[469]: set([1, 2, 3, 4, 5, 6, 7, 8]) 


In [470]: a&b # 交 (与 ) 
Out[470]: set([3, 4, 5]) 


In [471]:a-b # 差 
Out[471]: set([1, 2]) 


In [472]: a ^b # 对 称 差 ( 异 或 ) 
Out[472]: set([1, 2, 6, 7, 8]) 


你 还 可 以 判断 一 个 集合 是 否 是 男 一 个 集 
子 集 〈 原 集合 包含 于 新 集合 ) 或 超 集 ( 原 集 
含 新 集合 ) 

In [473]: a_set = {1, 2, 3, 4, 5} 


In [474]: {1, 2, 3}.issubset(a_set) 
Out[474]: True 


In [475]: a_set.issuperset({1, 2, 3}) 
Out[475]: True 


”不 难看 出 ， 如 采 丙 个 集合 的 内 容 相 等 ， 则 它 
们 束 古 相等 的 : 

In [476]: {1, 2, 3} == {3, 2, 1} 

Out[476]: True 


表 A-3: Python 的 集合 运算 


函数 其 他 表示 法 说 明 

a.add(x) N/A 将 元 素 x 添加 到 集合 a 

aremove(X) N/A 将 元 素 x 从 集合 a 中 删除 

a.union(b) alb a 和 b 全 部 的 唯一 元 素 

a.intersection(b) a&b a 和 b 都 有 的 元 素 

a.difference(b) a-b a 中 不 属于 b 的 元 素 
a.symmetric_difference(b) a 人 ^b a 或 b 中 不 同时 属于 a 和 b 的 元 素 
a.issubset(b) N/A 如 果 a 的 全 部 元 素 都 包含 于 b， 则 为 True 
a.issuperset(b) N/A 如 果 b 的 全 部 元 素 都 包含 于 a， 则 为 True 
a.isdisjoint(b) N/A 如 果 a 和 b 没 有 公共 元 素 ， 则 为 True 


列表 、 集 合 以 及 字典 的 推导 式 


列表 推导 式 征 最 党 欢迎 的 Python 语言 特性 之 
一 。 写 使 你 能 够 非常 冯 洁 地 构造 一 个 新 列表 : 只 
需 一 条 简洁 的 表达 式 ， 即 可 对 一 组 元 素 进 行 过 
ER 得 到 的 元 系 进 行 轻 换 变形 。 其 基本 形式 
1 


[expr for val in collection if condition] 


这 相当 于 下 面 这 段 for 人 循环 : 


result = [|] 
for val in collection: 
if condition: 
result .append(expr) 


过 滤 故 条 件 可 以 省 略 ， 只 留 下 表达 式 。 例 
如 ， 给 定 一 个 字符 串 列表 ， 我 们 可 以 滤 除 长 度 小 
于 等 于 2 的 字符 串 ， 并 将 和 璋 下 的 字符 串 转 换 成 大 写 
字母 形式 ; 

In [477]: strings = ['a', 'as', 'bat', 'car', 'dove', 

'python'] 


In [478]: [x.upper() for x in strings if len(x) > 2] 
Out[478]: ['BAT', 'CAR', 'DOVE', 'PYTHON'] 


集合 和 字典 的 推导 式 是 该 思想 的 一 种 目 然 延 
偶 ， 它 们 的 语法 兰 不 多 ， 只 不 过 产生 的 是 集合 和 
字典 而 已 。 字 典 推 导 式 的 基本 形式 如 下 : 


dict_comp = {key-expr : Value-expr for Value in collection if 
condition} 


集合 推导 式 跟 列表 推导 式 非常 相似 ， 唯 一 的 
区 别 就 古 它 用 的 是 化 括号 而 不 是 方 括号 : 
set_comp = {expr for value in collection if condition} 


跟 列 表 推 导 式 一 样 ， 集 合 和 字典 的 推导 式 也 
都 只 是 语法 糖 而 已 ， 但 它们 确实 能 使 代码 变 得 更 


容易 该 写 。 再 以 上 面 那个 字符 串 列 表 为 例 ， 假 设 
我 们 想 要 构造 一 个 集合 ， 其 内 容 为 原 列表 字符 串 
的 各 种 长 度 。 使 用 集合 推导 式 即 可 轻松 实现 此 功 
EE: 

In [479]: unique_ lengths = {len(x) for x in strings} 


In [480]: unique_lengths 
Out[480]: set([1, 2, 3, 4, 6]) 


再 来 看 一 个 击 单 的 字典 推 寻 陈 拖 例 。 我 们 可 
以 为 这 些 字 符 串 创建 一 个 指 同 其 列表 位 置 的 映 冉 
大 系 : 

In [481]: loc mapping = {val : index for index, val in 
enumerate(strings)} 
In [482]: loc_ mapping 


Out[482]: {'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 
'python': 5} 


实际 上 ， 该 字典 还 可 以 这 样 构造 : 


Loc_mapping = dict((val, idx) for idx, val in 
enumerate(strings)) 


, 依 我 看 ， 字 典 推 导 式 版 的 代码 要 更 短 也 更 清 
有 队 [ 。 


注意 : 字典 和 集合 的 推导 式 是 最 近 才 加 入 到 
Python 的 (Python 2.7 和 Python 3.1+) 。 


藤 倒 列表 推导 式 


假设 我 们 有 一 个 由 田 孩 名 列表 和 女 骇 名 列表 
组 成 的 列表 〈 即 列表 的 列表 ) : 


In [483]: all data = [['Tom', 'Billy', 'Jefferson', 'Andrew', 


'Wesley', 'Steven', 'Joe'l], 
ee ['Susie', 'Casey', 'Jill', 'Ana', 
'Eva', 'Jennifer', 'Stephanie']] 


这 些 名 子 可 能 十 从 多 个 文件 中 读 取 出 来 的 ， 
而 且 专门 将 男孩 文 孩 的 名 字 人 分开。 现在， 假设 我 
们 想 要 找 出 带 有 两 个 以 上 ( 仿 ) 字母 e 的 名 字 ， 并 
将 它们 放 入 一 个 新 列表 中 。 我 们 当然 可 以 用 一 个 
简单 的 for 循 环 来 实现 


names_of_interest = 上 [] 
for names in all data: 

enough_es = [name for name in names if name.count('e') > 
2] 译注 8 


names_of_interest.extend(enough_es) 


实际 上 ， 整 个 运算 过 程 完全 可 以 写成 一 条 巍 
套 列表 推导 式 ， 如 下 所 示 : 


In [484]: result = [name for names in all data for name in 
names 


If name.count('e') >= 2] 


In [485]: result 
Out[485]: ['Jefferson', 'Wesley', 'Steven', 'Jennifer', 
'Stephanie'] 


乍 看 起 来 ， 藤 和 父 列 表 推 寻 式 确实 不 太 好 理 
解 。 推 寻 式 中 for 的 部 分 是 按 藤 套 顺序 排列 的 ， 而 
过 滤 条 件 则 还 生 跟 之 前 一 样 是 放 在 后 面 鸣 。 下 面 
征 为 外 一 个 例子 ， 将 一 个 由 整 效 元 组 构成 的 列 
表 “ 局 平 化 "为 一 个 简单 的 整数 列表 : 

In [486]: some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)] | 

In [487]: flattened = [x for tup in some_ tuples for x in tup] 


In [488]: flattened 
Out[488]: [1, 2, 3, 4, 5, 6, 7, 8, 9] 


其 实 你 可 以 这 样 来 记 : 航 套 for 循 环 中 各 个 for 
的 顺序 是 怎样 的 ， 花 套 推 导 式 中 各 个 for 表 达 式 的 
顺序 束 是 怎样 的 。 


flattened = [] 


for tup in Some_tuples: 
for x in tup: 
flattened.append(x) 


你 可 以 编写 任意 多 层 的 舱 套 ， 但 是 如 采 舱 套 
超过 两 三 层 的 话 ， 可 能 你 吏 得 思考 一 下 数据 结构 
设计 有 没有 问题 了 。 一 定 要 注意 上 面 那 种 语法 
跟 “ 列 表 推 寻 陈 中 的 列表 推导 式 ” 之 间 的 区 别 。 比 
如 下 面 这 条 语句 也 征 正 确 的 ， 但 结 来 不 同 : 


In [229]: [[x for x in tup] for tup in some_tuples] 


畏 效 


罚 数 是 Python 中 最 主要 也 是 最 重要 的 代码 组 
织 和 复 用 手段 。 也 许 并 不 存在 拥有 超级 多 函数 的 
东西 。 实 际 上 ， 我 严重 认为 大 部 分 程序 员 在 做 数 
据 分 析 工 作 时 所 编写 的 函数 不 够 多 ! 从 前 面 的 例 
子 中 不 难看 出 ， 画 数 是 用 def 天 键 字 声明 的 ， 并 使 
用 return 关 键 字 返回 : 


def my_function(x, y, z=1.5): 
return z * (x + y) 


else: 
return z/ (x + y) 


同时 拥有 多 条 return 语 名 也 是 可 以 的 。 如 有 果 到 
达 函 数 末 尾 时 没有 过 到 任何 一 条 returmn 语 句 ， 则 返 
回 None。 


函数 可 以 有 一 些 位 置 参 数 (positional) 和 一 
些 关 键 字 参数 (keyword) 。 关 键 字 参数 通常 用 于 
指定 默认 值 或 可 选 参数 。 在 上 面 的 芳 数 中 ，x 和 y 
是 位 置 参 数 ， 而 z 则 是 天 键 字 参数 。 也 束 是 膏 ， 该 
函数 可 以 下 面 这 两 种 方式 进行 调用 : 


my_function(5, 6, z=0.7) 
my_function(3.14, 7, 3.5) 


畏 数 参数 的 主要 限制 在 于 : 天 键 字 参数 必须 
位 于 位 置 参 数 (如 果 有 的 话 ， 之 后 。 你 可 以 任何 
顺序 指定 关键 子 参数 。 也 束 古 说 ， 你 不 用 死记 全 
写 钞 数 参数 刚 顺 序 ， 只 要 记得 它们 的 名 字 束 可 以 


ee 


命名 至 间 、 作 用 域 ， 以 及 局 部 函数 


函数 可 以 访问 两 种 不 同 作 用 域 中 的 变量 : 全 
局 (global) 和 局 部 (local) 。Python 有 一 种 更 科 
学 的 用 于 描述 变量 作用 域 的 名 称 ， 即 命名 空间 
(namespace) 。 任 何在 函数 中 赋值 的 变量 默认 都 
是 被 分 配 到 局 部 命名 空间 (local namespace) 中 
的 。 局 部 命名 空间 是 在 函数 被 调用 时 创建 的 ， 画 
数 参 数 会 立即 填 入 该 命名 空间 。 在 函数 执行 完毕 
之 后 ， 局 部 命名 空间 就 会 被 销毁 (会 有 一 些 例外 
的 情况 ， 具 体 请 参见 后 面 介绍 闭 包 的 那 一 节 ) 。 
看 看 下 面 这 个 函数 : 


def func(): 
] 


for i in range(5): 
a.append(i) 


调用 func0 之 后 ， 首 移 会 创建 出 空 列 表 a， 然 
后 添加 5 个 元 妹 ， 最 后 a 会 在 该 函数 退出 的 时 候 伏 
硝 贤 。 假 如 我 们 像 下 面 这 样 定 义 a: 


a = [j 
def func(): 
for i in range(5): 
a.append(i) 


虽然 可 以 在 函 nn 量 进行 赋值 操 
是 那些 变量 必须 用 global 关 键 字 声明 成 全 局 
1 


In [489]: a = None 


In [490]: def bind a variable(): 
en global a 
a = [] 


..: bind a variable()™ 


OO 


In [491]: print a 
[] 


过 守 : 我 第 各 建议 人 们 不 要 频 过 使 用 global 关 
健 子 。 因 为 全 局 变量 一 般 是 用 于 存放 系统 的 某 些 
状态 的 。 如 东 你 发 现 目 己 用 了 很 多 ， 那 可 能 殉 说 
明 得 要 来 点 儿 面 问 对 象 编程 了 (即使 用 类 ) 。 


可 以 在 任何 位 置 进行 尔 数 声明 ， 即 使 古 局 部 
辆 效 (在 外 层 画 数 被 调用 之 后 才 会 被 动态 创建 出 
来 ) 也 是 可 以 的 : 


def outer_function(x，yYy，Z): 
def inner_function(a, b, c): 
pass 
pass 


在 上 面 的 代码 中 ，inner function 在 
outer_function 被 调用 之 前 是 不 存在 的 。 只 
outer function 结束 执行 ， 则 inner _ function 将 会 立即 


侯 铺 毁 。 


”各 个 敬 登 的 内 层 久 数 可 以 访问 其 上 层 饼 数 的 
局 部 命名 至 间 ， 但 不 能 绑 定 新 变量 。 我 将 在 讲解 
闭 包 的 时 候 再 对 此 问题 进行 讨论 。 


六 格 意义 上 来 说 ， 所 有 函数 部 是 某 个 作用 域 
， ” ， 这 个 作用 域 可 能 刚好 就 古 模 块 级 的 


返回 多 个 值 
在 我 第 一 次 用 Python 编程 时 (之 前 已 经 习惯 


了 Java 和 C++) ， 最 喜欢 的 一 个 功能 是 : 函数 可 以 
退回 多 个 值 。 下 面 生 一 个 简单 的 例 于 


在 数据 分 析 和 其 他 科学 计算 应 用 中 ， 你 会 发 
现 目 己 党 单 这么 于， 因为 许多 函数 都 可 能 会 有 多 


个 输出 (在 该 画 数 内 部 计算 出 的 数据 结构 或 其 他 
辅助 数据 ) 。 如 有 果 回 忆 一 下 本 半 早 前 讲 过 的 元 组 
打包 和 白 包 功能 ， 你 可 能 会 明日 这 到 压 是 怎么 一 
回 事 : 该 函数 具 实 只 返回 了 一 个 对 象 ， 也 吏 是 一 
个 元 组 ， 最 后 该 元 组 会 税 拆 包 人 到 各 个 结 来 变量 
中 。 在 上 面 的 例子 中 ， 我 们 还 可 以 这 样 写 : 


return_value = f() 


不 难看 出 ， 这 里 的 return_value 将 会 是 一 个 舍 

有 3 个 返回 值 的 三 元 元 组 。 此 外 ， 还 有 一 种 非常 具 
有 了 吸引 力 的 多 值 返 回 方式 一 一 返回 字典 : 

def f( 


Tl 1 


OTYo + 
所 


CD 
AO 


5 

pe 
oy 
oy 
[ey 
可 
O 
O 

Cy 


画 数 亦 为 对 象 


由 于 Python 函 数 都 是 对 象 ， 因 此 ， 在 其 他 语 
言 中 较 难 表达 的 一 些 设计 思想 在 Python 中 束 要 人 简 
单 很 多 了 。 假 设 我 们 有 下 面 这 样 一 个 字符 串 效 
ee 


states = [' Alabama ', 'Georgia!', 'Georgia', 'georgia', 
"FJOrIda '， 


'south carolina##', 'West virginia?'] 


不 管 是 谁 ， 只 要 处 理 过 由 用 户 提交 的 调查 数 
据 ， 就 能 明日 这 种 乱 七 八 粳 的 数据 是 怎么 一 回 
事 。 为 了 得 到 一 组 能 用 于 分 析 工 作 的 格式 统一 的 
字符 时， 需要 做 很 多 事情 ， 去除 空 日 符 、 删 除 各 
种 标点 从 号 、 正 确 的 大 写 格 式 等 。 午 一 看 上 去 ， 
我 们 可 能 会 写 出 下 面 这 样 的 代码 : 


import re # 正则 表达 式 和 模 珊 


def clean_strings(strings): 

result = [] 

for value in strings: 
value = value.strip() 
value = re.sub('[!#?]'，''，value) # 移 除 标点 符号 
value = value.title() 
result .append(value) 

return result 


最 终结 来 如 下 所 示 : 


In [15]: clean_strings(states) 
Out[15]: 
['Alabama', 

'Georgia', 

'Georgia', 

'Georgia', 

'Florida', 

'South Carolina', 

'West Virginia'] 


其 实 还 有 为 外 一 种 不 错 的 办 法 将 需要 在 一 
组 给 定子 从 串 上 执行 的 所 有 运算 做 成 一 个 列表 : 


def remove_punctuation(value): 
return re.sub('[!'#?]', '', value) 


clean_ops = [str,strip，remove_punctuation，str.title] 


def clean_strings(strings, ops): 
result = [] 
for value in strings: 
for function in ops: 
value = function(value) 
result .append(value) 
return result 


然后 我 们 束 有 了 : 


In [22]: clean_strings(states, clean_ops) 
Out[22] : 
['Alabama', 

'Georgia', 

'Georgia', 

'Georgia', 

'Florida', 

'South Carolina', 

'West Virginia'] 


这 种 多 函数 模式 使 你 能 在 很 高 的 层次 上 轻松 
修改 字符 串 的 转换 方式 。 此 时 的 dean_strings 也 更 
具 可 复 用 性 ! 


还 可 以 将 钞 数 用 作 其 他 函数 的 参数 ， 比 如 内 
2 它 用 于 在 一 组 数据 上 应 用 一 个 函 


In [23]: map(remove_punctuation, states) 
Out[23]: 
[' Alabama ',， 

'Georgia', 

'Georgia', 

'georgia', 

"FLOrIda '， 


'south carolina', 
'West virginia'] 


匿名 (lambda)” 画 数 


Python 有 一 种 被 称 为 匿名 函数 或 lambda 函 数 的 
东西 ， 这 其 实 是 一 种 非常 简单 的 国 数 : 仅 由 单条 
语句 组 成 ， 该 语句 的 结果 就 是 返回 值 。 它 们 是 通 
过 lambda 关 键 字 定义 的 ， 这 个 天 键 字 没 有 别 的 含 
ee 


def short_function(x): 
return x * 2 


equiv_anon = lambda x: x * 2 


本 书 其 余部 分 一 般 将 其 称 为 lambda 玉 数 。 呈 
们 在 数据 分 析 工 作 中 非常 方便 ， 因 为 你 会 发 现 很 
多 数据 转换 函数 都 以 函数 作为 参数 的 。 和 直接 传 入 
lambda 函 数 比 编写 完整 国 数 声明 要 少 输入 很 多 字 
(也 更 清晰 ) ， 甚 至 比 将 lambda 函 数 赋值 给 一 个 
变量 还 要 少 输入 很 多 字 。 看 看 下 面 这 个 简单 得 有 
些 傻 的 例子 : 


def apply_to list(some list, f): 
return [f(x) for x in some_list] 


ints = [4, 0, 1, 5, 6] 
apply_to_ list(ints, lambda x: x * 2) 


里 然 你 可 以 直接 编写 [x *2for x in ints]， 但 走 
这 里 我 们 可 以 非常 轻松 地 传 入 一 个 自 定义 运算 给 
apply_to_jlist 函 效 。 


再 来 看 万 外 一 个 例 了 于 。 假 设 有 一 组 字符 串 ， 


nn 
名 : 


In [492]: strings = ['foo', 'card', 'bar', 'aaaa', 'abab'] 


这 里 ， 我 们 可 以 传 入 一 个 lambda 函 数 到 列表 
的 sort 方 法 : 


In [493]: strings.sort(key=lambda x: len(set(1list(x)))) 


In [494]: strings 


Out[494]: ['aaaa', 'foo', 'abab', 'bar', "card '] 


注意 : lambda 函 数 之 所 以 会 被 称 为 匿名 函 
数 ， 原 因 之 一 整 是 这 种 芳 数 对 象 本 喘 是 没有 所 供 
名 称 属性 的 。 


闭 包 : 返回 函数 的 函数 


闭 包 (closure) 不 十 什么 很 可 局 的 东西 。 如 
来 用 对 了 地 方 ， 它 们 其 实 可 以 非 第 强大 ! 侧 而 言 
之 ， 闭 包 吏 是 由 其 他 函数 动态 生成 并 返回 的 函 
数 。 其 关键 性 质 是 ， 个 返回 的 画 数 可 以 访问 其 创 


建 者 的 局 部 命名 空间 中 的 变量 。 下 面 古 一 个 非常 
何 单 的 例子 : 
def make_closure(a): 
def closure(): 


print('I Know the secret: %d' % a) 
return closure 


closure = make_closure(5) 


闭 包 和 标准 Python 函数 之 间 的 区 别 在 于 : 即 
使 其 创建 者 已 经 执行 完毕 ， 闭 包 仍 能 继续 访问 其 
创建 者 的 局 部 命名 空间 。 因 此 ， 在 上 面 这 种 情况 
中 ， 返 回 的 闭 包 将 可 打印 出 "ITknow the secret:5"。 
虽然 闭 包 的 内 部 状态 (在 本 例 中 ， 只 有 值 a) 一 般 
都 是 静态 的 ， 但 也 允许 使 用 可 变 对 象 《如 字典 、 
集合 、 列 表 等 可 以 被 修改 的 对 象 ) 。 例 如 ， 下 面 
这 个 函数 可 以 返回 一 个 能 够 记录 其 参数 (曾经 传 
入 的 一 切 参 数 ) 的 函数 : 


def make_watcher(): 
have_seen = {} 


def has_been_seen(x): 
if x in have_seen: 
return True 
else: 
have_seen[x] = True 
return False 


return has_been_ seen 


对 一 组 整数 使 用 该 画 数 ， 可 以 得 到 ; 


In [496]: watcher = make watcher() 
In [497]: vals = [5, 6, 1, 5, 1, 6, 3, 5] 


In [498]: [watcher(x) for x in vals]| 
Out[498]: [False, False, False, True, True, True, False, 
True] 


但 是 要 注意 一 个 技术 限制 : 虽然 可 以 修改 任 
何 内 部 状态 对 象 《比如 向 字典 添加 键 值 对 ) ， 但 
不 能 绑 定 外 层 函 数 作 用 域 中 的 变量 。 一 个 解决 办 
法 是 : 修改 字典 或 列表 ， 而 不 是 绑 定 变量 。 


def make_counter(): 
count = [0] 
def counter(): 
# 增加 并 返回 当前 的 count 
count[0] += 1 
return count[0] 
return counter 


counter = make_counter() 


你 可 能 会 想 ， 这 a 到 压 有 什么 用 。 在 实际 工作 
中 ， 你 可 以 编写 市 有 大 量 选 项 的 非常 一 般 化 的 画 
效 ， 然 后 再 组 笋 出 更 简单 更 专门 化 的 国 效 。 下 面 
这 个 例子 中 创建 了 一 个 字符 串 格 式 化 函数 : 

def format_and_pad(template, space): 


def formatter(x): 
return (template % x).rjust(space) 


return formatter 


做 后， 你 可 以 创建 一 个 始终 返回 15 位 字符 串 
的 浮 点 数 格 式 化 絮 ， 如 下 所 示 : 


In [500]: fmt = format_and_pad('%.4f', 15) 


In [501]: fmt(1.756) 
Out[501]: ， 1.7560， 


如 条 多 学 一 些 Python 面 问 对 象 编程 方面 的 知 
识 ， 你 吏 会 发 现 这 种 模式 其 实 也 能 用 类 来 实现 
(虽然 会 更 嗪 一 点 ) 。 


扩展 调用 语法 和 *args 、**kwargs 


在 Python 中 ， 芳 数 参 数 的 工作 方式 其 实 很 食 
单 。 当 你 编写 func(a,b,c,d=some,e=value) 时 ， 位 置 
和 关键 字 参 数 其 实 分 别 是 被 打包 成 元 组 和 字典 
的 。 畏 数 实 际 接收 到 的 是 一 个 元 组 args 和 一 个 字典 
kwargs， 并 在 内 部 完成 如 下 转换 : 


a, b, c = args 
d = kwargs.get('d', d_ default_value) 
e = kwargs.get('e', e _ default_ value) 


这 一 切 部 是 在 大 后 悄悄 发 生 的 。 当 然 ， 它 还 
会 执行 一 些 锯 误 检查 ， 还 允许 你 将 位 置 参 数 当 成 
关键 子 参数 那样 进行 指定 (即使 它们 在 函数 定义 
中 并 不 是 关键 字 参 数 ) 。 


def say_hello then call f(f, *args, **kwargs): 
print 'args is', args 
print 'kwargs is', kwargs 
print("Hello! Now I'm going to call %s" % f) 
return f(*args, **kwargs) 


def g(x, y, z=1): 
return (x + y)/z 


和 如 果 我 们 通过 say_hello_then_call f 调 
ee 全 


In [8]: Say_hello then call f(g, 1, 2, z=5.) 

args is (1, 2) 

kwargs is {'z': 5.0} 

Hello! Now I'm going to call <function g at Ox2dd5cf8> 
Out[8]: 0.6 


柯 里 化 : 部 分 参数 应 用 


柯 里 化 og 是 一 个 有 趣 的 计算 机 科学 
术语 ， 它 指 的 是 通过 “部 分 参数 应 用 ” (partial 
argument | 从 现 有 函数 派生 出 新 函数 的 
假 肥 我 们 有 一 个 执行 两 数 相 加 的 简单 函 


def add_ numbers(x, y): 
return x + y 


通过 这 个 芳 数 ， 我 们 可 以 派生 出 一 个 新 的 只 
有 一 个 参数 的 函数 一 一 add_five， 它 用 于 对 其 参数 
加 5: 


add_ five = lambda y: add_numbers(5，Yy) 


add _ 的 第 二 个 参数 称 为 “ 柯 里 化 
的 ” (curried) 。 这 里 没 什 么 特别 花哨 的 东西 ， 因 
为 我 们 其 实 束 只 是 定义 了 一 个 可 以 调用 现 有 函数 
的 新 本 数 而 已 。 内 置 的 functools 模 块 可 以 用 partial 
函数 将 此 过 程 侧 化 : 


from functools import partial 
add_five = partial(add_numbers, 5) 


在 讨论 pandas 和 时 间 序 列 数据 时 ， 我 们 将 会 用 
该 扩 术 去 创建 专门 的 数据 序列 转换 函数 : 


# 了 有 间 夺 区 x 了 60 于 
ma60 = lambda x: a Ce _mean(x, 60) 


# 计算 data 中 所 有 时 间 序 列 的 60 日 移动 平均 
data.apply(ma60) 


能 以 一 种 一 致 的 方式 对 序列 进行 迭代 (比如 
列表 中 的 对 象 或 文件 中 的 行 是 Python 的 一 个 重 
要 特点 。 这 是 通过 一 种 叫做 迭代 器 协 议 (iterator 
protocol， 它 是 一 种 使 对 象 可 送 代 的 通用 方式 ) 的 
方式 实现 的 。 比 如 说 ， 对 字典 进行 迭代 可 以 得 到 
其 所 有 的 键 : 


In [502]: Some_dict = {'a': 1, 'b': 2, 'c': 3} 


In [503]: for key in some_dict: 
print key, 译注 10 


ac b 


当 你 编写 Sfor key in some_dict 时 ， 人 
角 目 完 会 洗 试 从 some_dict 创 建 一 个 迭代 履 


In [504]: dict_iterator = iter(some_ dict) 


In [505]: dict_iterator 
Out[505]: <dictionary-keyiterator at 0Xx10a0a1578> 


和 欠 代 囊 是 一 种 特殊 对 象 ， 它 可 以 在 诸如 for 循 
环 之 关 的 上 下 文中 加 Python 解释 娟 输送 对 象 。 大 
部 分 能 接受 列表 之 夫 的 对 象 的 方法 也 部 可 以 接受 
任何 可 迁 代 对 象 。 比如 min、max、sum 等 内 置 方 
法 以 及 list、tuple 等 类 型 构造 硕 : 


In [506] : 和 EU 
Out[506]: ['a', 'c', 'b'] 


生成 器 (generator) 是 构造 新 的 可 迭代 对 象 的 
一 种 简单 方式 。 一 般 的 函数 执行 之 后 只 会 返回 单 
个 值 ， 而 生成 器 则 是 以 延迟 的 方式 返回 一 个 值 序 
列 ， 即 每 返回 一 个 值 之 后 暂停 ， 直 到 下 一 个 值 被 
请 求 时 再 继续 。 要 创建 一 个 生成 器 ， 只 需 将 函数 
中 的 return 符 换 为 yeild 即 可 : 


def squares(n=10): 


for i in xrange(1, n + 1): 
print 'Generating squares from 1 to %d' % (Nn ** 2 ) 译 注 


yield i ** 2 


调用 该 生成 右 时 ， 没 有 任何 代码 会 被 立即 执 


In [2]: gen = squares() 


In [3]: gen 
Out[3]: <generator object squares at Ox34c8280> 


直到 你 从 该 生成 硕 中 请 求 元 叉 时 ， 它 才 会 开 
台 执 行 其 代码 : 


In [4]: for x in gen: 
二 print x, 


Generating squares from 0 to 100 
149 16 25 36 49 64 81 100 


假设 我 们 希望 找 出 “将 1 美元 ( 即 100 美 分 ) 竞 
换 成 任意 一 组 硬币 ”的 所 有 唯一 方式 。 你 可 能 会 想 
出 很 多 种 实现 办 法 (包括 “已 找到 的 唯一 组 合 ” 的 
保存 方式 ) 。 下 面 我 们 编写 一 个 生成 器 来 产生 这 
样 的 硬币 组 合 (硬币 面额 用 整数 表示 ) 


def make_change(amount, coins=[1, 5, 10, 25|], hand=None): 
hand = [] if hand is None else hand 
If amount == 0: 
yield hand 
for coin in coins 
# 确保 我 们 给 出 的 硬 币 没有 超过 总 额 ， 且 组 合 是 唯一 的 


if coin > amount or (len(hand) > 0 and hand[-1] < 


coin): 
continue 


for result in make_ change(amount - coin, coins=coins, 
hand=hand + [coin]): 
yield result 


这 个 算法 的 细 世 并 不 重要 (你 能 想 出 一 个 更 
短 点 的 办 法 吗 ? ) 。 然 后 我 们 可 以 编写 : 


In [508]: for way in make_change(100, coins=[10, 25, 50|]): 
ee print way 

[10, 10, 10, 10, 10, 10, 10, 10, 10, 10] 

[25, 25, 10, 10, 10, 10, 10] 

[25, 25, 25, 25] 

[50, 10, 10, 10, 10, 10] 

[50, 25, 25] 

[50, 50] 


In [509]: len(list(make_change(100))) 
Out[509]: 242 


生成 器 表 达 式 (generator expression) 是 构造 
生成 砷 的 最 简单 方式 。 生 成 契 也 有 一 个 类 似 于 列 
未 、 字 典 、 集 合 推导 式 的 东西 ， 其 创建 方式 为 ， 
把 列表 推导 式 两 端的 方 括号 改 成 圆 括号 : 


In [510]: gen = (x ** 2 for x in xrange(100)) 


In [511]: gen 
Out[511]: <generator object <genexpr> at 0Xx10a0a31e0> 


NN 
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它 跟 下 面 这 个 元 长 得 
的 : 
def _make_gen( ) : 
for x in xrange(100): 


yield x ** 2 
gen = _make_gen() 


生成 妮 表 达 式 可 用 于 任何 接受 生成 磊 的 
Python 函 效 : 
In [512]: sum(x ** 2 for x in xrange(100)) 


Out[512]: 328350 


In [513]: dict((i, i **2) for i in xrange(5)) 
Out[513]: {0: 0, 1: 1, 2: 4, 3: 9, 4: 16} 


itertools 模 块 


标准 库 itertools 模 块 中 有 一 组 用 于 许多 第 见 数 
据 算 法 的 生成 器。 例如 ，groupby 可 以 接受 任何 友 
列 和 一 个 函数 。 它 根据 函数 的 返回 值 对 序列 中 的 
连续 元 际 进 行 分 组 。 下 面 是 一 个 例子 : 


In [514]: import itertools 
In [515]: first_letter = lambda x: x[0] 


In [516]: names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 
'Steven'] 


In [517]: for letter, names in itertools.groupby(names, 

first_letter ) : 
本 print letter，1ist(names) # names 是 一 个 生成 器 

A ['Alan', 'Adam'] 


WwW ['wes'， 'Will'] 
A ['Albert'] 
S ['Steven '] 


表 A-4 中 列 出 了 一 些 我 经 常用 到 的 itertools 函 
A o 


表 A-4: 一 些 常用 的 itertools 函 数 


函数 说 明 

imap(func, *iterables) 内 置 函数 map 的 生成 器 版 ， 将 func 应 用 于 参数 序列 的 各 个 
打包 元 组 

ifilter(func, iterable) 内 置 函 数 filter 的 生成 器 版 ， 当 func(x) 为 True 时 输出 元 素 x 


表 A-4: 一 些 常 用 的 itertools 函 数 ( 续 ) 


函数 说 明 

combinations(iterable, k) 生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 (不 
考虑 顺序 ) 

permutations(iterable, k) 生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 ( 考 
虑 顺序 ) 


groupby(iterable[, keyfund]) 为 每 个 唯一 键 生成 一 个 (key, sub-iterator) 。 


注意 :， 许 多 在 Python 2 (itertools) 中 产生 列 
表 的 内 置 画 数 (如 zip、 map 、 filter 等 ) ， 在 Python 
3 中 都 被 换 成 了 其 生成 希 版 。 


文件 和 操作 系统 


本 书 的 代码 示例 大 多 使 用 诸如 pandas.read_csv 
之 类 的 高 级 工具 将 磁盘 上 的 数据 文件 读 入 Python 
数据 结构 。 但 我 们 还 是 需要 了 解 一 些 有 天 Python 


文件 处 理 方面 的 基础 知识 。 好 在 它 本 来 承 很 简 
单 ， 这 也 征 Python 在 文本 和 文件 处 理 方面 的 如 此 
流行 的 原因 之 一 。 


为 了 打开 一 个 文件 以 便 读 写 ， 可 以 使 用 内 站 
的 open 函 数 以 及 一 个 相对 或 绝对 的 文件 路 径 : 


In [518]: path = 'ch1i3/segismundo.txt' 


In [519]: f = open(path) 


默认 情况 下 ， 文 件 是 以 只 读 模 式 (r') 打开 
的 。 然 后 ， 我 们 束 可 以 像 处 理 列表 那样 来 处 理 这 
个 文件 句柄 ff 了， 比如 对 行进 行 述 代 : 


for line in f: 
pass 


从 文件 中 取出 的 行 都 带 有 完整 的 行 结束 符 
(EOL) ， 因 此 你 常常 会 看 到 下 面 这 样 的 代码 
(得 到 一 组 没有 EOL 的 行 ): 


In [520]: lines = [x.rstrip() for x in open(path)] 


In [521]: lines 

Out[521]: 

['Sue\xc3\xbia el rico en su riqueza,', 
'que m\xc3\xals cuidados le ofrece;', 
1 1 


了 
'sue\xc3\xbia el pobre que padece '， 
"SU miseria y su pobreza;', 
1 1 


'sue\xc3\xbia el que a medrar empieza,', 
'sue\xc3\xbia el que afana y pretende,', 


'sue\xc3\xbia el que agravia y ofende,', 


了 
'y en el mundo，en conclusi\xc3\xb3n,', 
'todos sue\xc3\xbian lo que son,', 
'aungque ninguno lo entiende.', 
ri 


如 采 输 入 f =open(path,"w')， 束 会 有 一 个 新 文 
件 被 创建 在 ch13/segismundo.txt， 并 禾 讲 挥 该 位 置 
0 ° 表 A-5 列 出 了 所 有 可 用 的 文件 读 
写 模 式 。 


表 A-5: Python 的 文件 模式 

模式 ”说 明 

r 只 读 模 式 

w 只 写 模 式 。 创 建新 文件 (删除 同名 的 任何 文件 守 宇 !?) 

a 附加 到 现 有 文件 (如果 文 件 不 存在 则 创建 一 个 ) 

r+ 读 写 模式 

b 附加 说 明 某 模式 用 于 二 进 制 文件 ， 即 "rb' 或 "wb 

U 通用 换行 模式 。 单 独 使 用 'U' 或 附加 到 其 他 读 模 式 (如 'rU') 


译注 12: 这 的 “名 ?包括 路 径 。 


”要 将 文本 写 入 文件 ， 可 以 使 用 该 文件 的 write 
或 writelines 方 法 。 例如 ， 我 们 可 以 创建 一 个 无 空 
行 版 的 prof_mod.py” 瑟 ， 如 下 所 示 : 

In [522]: with open('tmp.txt', 'w') as handle: 
和 handle.writelines(x for x in open(path) if 


len(x) > 1) 


In [523]: open('tmp.txt').readlines() 


Out[523]: 

['Sue\xc3\xbila el rico en su riqueza, An '， 
'que m\xc3\xals cuidados le ofrece;\n', 
'sue\xc3\xbia el pobre que padece\n', 

'su miseria y su pobreza;\n', 
'sue\xc3\xbia el que a medrar empieza,\n', 
'sue\xc3\xbia el que afana y pretende,\n', 
'sue\xc3\xbia el que agravia y ofende,\n', 
'y en el mundo, en conclusi\xc3\xb3n, \n', 
'todos sue\xc3\xblan lo que son,\n', 
"aundue ninguno lo entiende.\n']| 


表 A-6 列 出 了 一 些 最 常用 的 文件 方法 。 


表 A-6: 重要 的 Python 文 件 方法 或 属性 


天 法 说 明 

read([size]) 以 字符 串 形 式 返回 文件 数据 ， 可 选 的 size 参 数 用 于 说 明 读 取 的 字 节 数 
readlines([size]) “将 文件 返回 为 行列 表 ， 可 选 参数 size 

write(str) 将 字符 串 写 入 文件 

closel() 关闭 句柄 

flush() 清空 内 部 VO 缓 存 区 ， 并 将 数据 强行 写 回 磁盘 

seek(pos) 移动 到 指定 的 文件 位 置 (整数 ) 

tell() 以 整数 形式 返回 当前 文件 位 置 

closed 如 果 文 件 已 关闭 ， 则 为 True 


译注 1: 这 里 只 是 作者 起 的 名 字 而 已 ， 不 必 介 怀 ， 

i I 命 天 子 类 型 ”之 类 的 名 
。 其 实 它 是 一 个 哲学 和 由 罗 辑 学 概念 ， 束 是 说 “对 

于 只 乌 类 动物 ， 不 用 管 它 人 到 故 古 不 古 赐 子 ， 

要 看 它 像 不 像 鸭 子 职 可 以 了 ”。 

译注 2: 也 了 束 是 定义 别 各 。 

译注 3: 在 函数 式 编 程 中 ， 也 篆 详 作 惰 性 求 值 。 


译注 4: 这 个 词 指 的 是 “不 能 修改 原 内 存 块 的 数 
据 ”。 也 束 是 说 ， 即 使 修改 操作 成 功 了 ， 也 只 是 创 
建 了 一 个 新 对 象 并 将 其 引用 赋值 给 原 变量 而 已 。 
译注 5: 作者 用 的 比 我 现在 用 的 版 本 还 老 。 所 以 在 
阅读 本 书 的 过 程 中 有 些 例子 的 计算 结果 不 一 定 跟 
书 上 的 完全 一 致 。 

译注 6: 分 子 也 可 以 的 。 

译注 7: 或 者 翻译 成 可 散 列 性 。 

译注 8: 应 该 是 ">="， 因 为 原文 是 "two and more"。 
译注 9: 注意 缩 进 ， 别 搞 成 递归 了 。 

译注 10: 注意 这 里 的 逗号 。 

译注 11: 应 该 放 到 for 循 环 之 前 ， 人 否则 后 面 的 执行 
结 采 与 书 上 的 不 一 样 。 


译注 13: 应 该 是 segismundo.txt。 


